UTF-8、UTF-32と比較して、一般的な日本語が主体の文章ではUnicode符号化方式の中では最小サイズとなる。追加面の文字が含まれる場合、バイト順にソートしても符号位置順とはならない。また、UTF-8と違いASCII互換ではない。
Shift_JISと比較して、Shift_JISでは1バイト文字と、2バイト文字の1バイト目と2バイト目の値範囲が一部重複しているが、UTF-16では1符号単位文字、サロゲートペアの前半の符号単位、後半の符号単位がすべて異なる値範囲を取る。そのため、Shift_JISであった、例えば「a」で検索すると2バイト目にマッチする場合がある、途中から読みこむと文字の区切りがわからないときがある、1バイト目や2バイト目が欠落した場合、後続の文字すべてが文字化けする可能性がある、などの問題は発生しない。UTF-16では欠落があっても影響を受けるのはその文字だけである[2]。 UTF-16符号化フォームは、Windows や Java(J2SE 5.0以上)で、内部表現に使われている。Windowsの内部表現では、16ビット符号なし整数を符号単位とするUTF-16符号化フォームとして扱い、ファイルなどでは、BOMあり(リトルエンディアン)のUTF-16符号化スキームが主である。 TCP/IPネットワークでは、プロトコルヘッダやMIME等の手段で文字符号化スキームを指定しない場合は、ビッグエンディアンに決められている。
利用
脚注
注釈^ UTFは、UnicodeではUnicode Transformation Formatの略、ISO/IEC 10646ではUCS Transformation Formatの略とされる。
出典^ “The Unicode Standard Version 12.0
^ “FAQ - UTF-8, UTF-16, UTF-32 & BOM
用語の日本語表記は次を参考にした。“ ⇒Unicode Terminology English - Japanese”. Unicode, Inc. 2010年1月1日閲覧。
関連項目.mw-parser-output .side-box{margin:4px 0;box-sizing:border-box;border:1px solid #aaa;font-size:88%;line-height:1.25em;background-color:#f9f9f9;display:flow-root}.mw-parser-output .side-box-abovebelow,.mw-parser-output .side-box-text{padding:0.25em 0.9em}.mw-parser-output .side-box-image{padding:2px 0 2px 0.9em;text-align:center}.mw-parser-output .side-box-imageright{padding:2px 0.9em 2px 0;text-align:center}@media(min-width:500px){.mw-parser-output .side-box-flex{display:flex;align-items:center}.mw-parser-output .side-box-text{flex:1}}@media(min-width:720px){.mw-parser-output .side-box{width:238px}.mw-parser-output .side-box-right{clear:right;float:right;margin-left:1em}.mw-parser-output .side-box-left{margin-right:1em}}ポータル コンピュータ
UTF-8
UTF-32
表
話
符号化文字集合
JIS X 0201
JIS X 0208
JIS X 0212
JIS X 0213
JIS X 0221(日本文字部分レパートリ)
文字符号化方式
ISO-2022-JP
EUC-JP
Shift_JIS
Shift_JISX0213
Shift_JIS-2004
EUC-JISX0213
EUC-JIS-2004
ISO-2022-JP-3
ISO-2022-JP-2004
漢字シフトコード
文字一覧
JIS X 0213非漢字一覧
JIS X 0213漢字一覧の1面
JIS X 0213漢字一覧の2面
JIS以外の公規格
MJ文字
入管正字
ARIB外字
ARIB外字の追加記号一覧
メーカーの規格
符号化文字集合
IBM拡張文字
マイクロソフト標準キャラクタセット
Adobe-Japan1
iモード絵文字
EZweb絵文字
SoftBank絵文字
今昔文字鏡
JIPS
EBCDIC
GT書体
KEIS
IBM漢字システム
レコード用文字符号
ビブロス外字
文字符号化方式
Microsoftコードページ932
MacJapanese
JEF漢字コード
U-PRESS
日本語を含む
多言語文字集合
Unicode
ISO/IEC 10646
JIS X 0221
面
基本多言語面
追加面
追加多言語面
追加漢字面
第三漢字面
追加特殊用途面
私用面
文字符号化方式
UTF-8
UTF-16/UCS-2
UTF-32/UCS-4
UTF-7
UTF-EBCDIC
GB 18030
SCSU
BOCU-1
文字一覧
Unicode一覧
Unicode一覧表
Unicode6.0の携帯電話の絵文字の一覧
UnicodeのEmojiの一覧
TRONコード
TRONコード
日本語以外用の
文字集合
初期の文字コード
ASCII
Baudot Code
ISO/IEC 646
ISO/IEC 6937
T.61
ISO/IEC 8859
-1
-2
-3
-4
-5
-6
-7
-8
-9
-10
-11
-13
-14
-15
-16
書誌用
ISO 5426
ISO 5426-2
ISO 5427
ISO 5428
ISO 6438
ISO 6861
ISO 6862
ISO 9036
ISO 10585
ISO 10586
ISO 10754
ISO 11822
ANSEL
MARC-8
国家標準
ArmSCII
CNS 11643
GOST 10859
GB 2312
HKSCS