UTF-16 - 暇つぶしWikipedia

UTF-16

□記事を途中から表示しています
[最初から表示]

UTF-16の場合は、BOM でエンディアンを明示するか、上層のプロトコルで指定されておらずBOMも付与しない場合はビッグエンディアンにするよう決められている [1]。
比較

UTF-8、UTF-32と比較して、一般的な日本語が主体の文章ではUnicode符号化方式の中では最小サイズとなる。追加面の文字が含まれる場合、バイト順にソートしても符号位置順とはならない。また、UTF-8と違いASCII互換ではない。

Shift_JISと比較して、Shift_JISでは1バイト文字と、2バイト文字の1バイト目と2バイト目の値範囲が一部重複しているが、UTF-16では1符号単位文字、サロゲートペアの前半の符号単位、後半の符号単位がすべて異なる値範囲を取る。そのため、Shift_JISであった、例えば「a」で検索すると2バイト目にマッチする場合がある、途中から読みこむと文字の区切りがわからないときがある、1バイト目や2バイト目が欠落した場合、後続の文字すべてが文字化けする可能性がある、などの問題は発生しない。UTF-16では欠落があっても影響を受けるのはその文字だけである [2]。
利用

UTF-16 符号化フォームは、Windows や Java（J2SE 5.0以上）で、内部表現に使われている。Windowsの内部表現では、16ビット符号なし整数を符号単位とするUTF-16符号化フォームとして扱い、ファイルなどでは、BOMあり（リトルエンディアン）のUTF-16符号化スキームが主である。

TCP/IPネットワークでは、プロトコルヘッダやMIME等の手段で文字符号化スキームを指定しない場合は、ビッグエンディアンに決められている。
脚注
 注釈 ^ UTFは、UnicodeではUnicode Transformation Formatの略、ISO/IEC 10646ではUCS Transformation Formatの略とされる。

出典 ^ “The Unicode Standard Version 12.0” (PDF) (English). The Unicode Consortium. p. 131 (2019年3月). 2019年5月12日閲覧。 “The UTF-16 encoding scheme may or may not begin with a BOM. However,when there is no BOM, and in the absence of a higher-level protocol, the byteorder of the UTF-16 encoding scheme is big-endian.”
^ “FAQ - UTF-8, UTF-16, UTF-32 & BOM” (English). The Unicode Consortium (2017年6月27日). 2019年5月12日閲覧。

参考資料

表

話

編

歴
 文字コード
 日本語用の
文字コード

JIS規格

符号化文字集合

 JIS X 0201

JIS X 0208

JIS X 0212

JIS X 0213

JIS X 0221（日本文字部分レパートリ）

文字符号化方式

 ISO-2022-JP

EUC-JP

Shift_JIS

Shift_JISX0213

Shift_JIS-2004

EUC-JISX0213

EUC-JIS-2004

ISO-2022-JP-3

ISO-2022-JP-2004

漢字シフトコード

文字一覧

JIS X 0213非漢字一覧

 JIS X 0213漢字一覧の1面

 JIS X 0213漢字一覧の2面

JIS以外の公規格

MJ文字

 入管正字

 ARIB外字

 ARIB外字の追加記号一覧

メーカーの規格

符号化文字集合

 IBM拡張文字

 マイクロソフト標準キャラクタセット

 Adobe-Japan1

iモード絵文字

 EZweb絵文字

 SoftBank絵文字

 今昔文字鏡

 JIPS

EBCDIC

GT書体

 KEIS

IBM漢字システム

 レコード用文字符号

 ビブロス外字

 文字符号化方式

 Microsoftコードページ932

MacJapanese

JEF漢字コード

 U-PRESS

日本語を含む
多言語文字集合

Unicode
ISO/IEC 10646
JIS X 0221

面

 基本多言語面

 追加面

 追加多言語面

 追加漢字面

 第三漢字面

 追加特殊用途面

 私用面

 文字符号化方式

 UTF-8

UTF-16/UCS-2

UTF-32/UCS-4

UTF-7

UTF-EBCDIC

GB 18030

SCSU

BOCU-1

文字一覧

Unicode一覧

 Unicode一覧表

 Unicode6.0の携帯電話の絵文字の一覧

 UnicodeのEmojiの一覧

 TRONコード

 TRONコード

日本語以外用の
文字集合

初期の文字コード

ASCII

Baudot Code

ISO/IEC 646

ISO/IEC 6937

T.61

ISO/IEC 8859

-1

-2

-3

-4

-5

-6

-7

-8

-9

-10

-11

-13

-14

-15

-16

書誌用

ISO 5426

ISO 5426-2

ISO 5427

ISO 5428

ISO 6438

ISO 6861

ISO 6862

ISO 9036

ISO 10585

ISO 10586

ISO 10754

ISO 11822

ANSEL

MARC-8

国家標準

ArmSCII

CNS 11643

GOST 10859

GB 2312

HKSCS

Size:28 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef