UTF-16
[Wikipedia|▼Menu]
□記事を途中から表示しています
[最初から表示]

UTF-16の場合は、BOM でエンディアンを明示するか、上層のプロトコルで指定されておらずBOMも付与しない場合はビッグエンディアンにするよう決められている[1]
比較

UTF-8UTF-32と比較して、一般的な日本語が主体の文章ではUnicode符号化方式の中では最小サイズとなる。追加面の文字が含まれる場合、バイト順にソートしても符号位置順とはならない。また、UTF-8と違いASCII互換ではない。

Shift_JISと比較して、Shift_JISでは1バイト文字と、2バイト文字の1バイト目と2バイト目の値範囲が一部重複しているが、UTF-16では1符号単位文字、サロゲートペアの前半の符号単位、後半の符号単位がすべて異なる値範囲を取る。そのため、Shift_JISであった、例えば「a」で検索すると2バイト目にマッチする場合がある、途中から読みこむと文字の区切りがわからないときがある、1バイト目や2バイト目が欠落した場合、後続の文字すべてが文字化けする可能性がある、などの問題は発生しない。UTF-16では欠落があっても影響を受けるのはその文字だけである[2]
利用

UTF-16符号化フォームは、WindowsJavaJ2SE 5.0以上)で、内部表現に使われている。Windowsの内部表現では、16ビット符号なし整数を符号単位とするUTF-16符号化フォームとして扱い、ファイルなどでは、BOMあり(リトルエンディアン)のUTF-16符号化スキームが主である。

TCP/IPネットワークでは、プロトコルヘッダやMIME等の手段で文字符号化スキームを指定しない場合は、ビッグエンディアンに決められている。
脚注
注釈^ UTFは、UnicodeではUnicode Transformation Formatの略、ISO/IEC 10646ではUCS Transformation Formatの略とされる。

出典^ “The Unicode Standard Version 12.0” (PDF) (English). The Unicode Consortium. p. 131 (2019年3月). 2019年5月12日閲覧。 “The UTF-16 encoding scheme may or may not begin with a BOM. However,when there is no BOM, and in the absence of a higher-level protocol, the byteorder of the UTF-16 encoding scheme is big-endian.”
^ “FAQ - UTF-8, UTF-16, UTF-32 & BOM” (English). The Unicode Consortium (2017年6月27日). 2019年5月12日閲覧。

参考資料

用語の日本語表記は次を参考にした。“ ⇒Unicode Terminology English - Japanese”. Unicode, Inc. 2010年1月1日閲覧。
関連項目.mw-parser-output .side-box{margin:4px 0;box-sizing:border-box;border:1px solid #aaa;font-size:88%;line-height:1.25em;background-color:#f9f9f9;display:flow-root}.mw-parser-output .side-box-abovebelow,.mw-parser-output .side-box-text{padding:0.25em 0.9em}.mw-parser-output .side-box-image{padding:2px 0 2px 0.9em;text-align:center}.mw-parser-output .side-box-imageright{padding:2px 0.9em 2px 0;text-align:center}@media(min-width:500px){.mw-parser-output .side-box-flex{display:flex;align-items:center}.mw-parser-output .side-box-text{flex:1}}@media(min-width:720px){.mw-parser-output .side-box{width:238px}.mw-parser-output .side-box-right{clear:right;float:right;margin-left:1em}.mw-parser-output .side-box-left{margin-right:1em}}ポータル コンピュータ

UTF-8

UTF-32










文字コード
日本語用の
文字コード

JIS規格

符号化文字集合

JIS X 0201

JIS X 0208

JIS X 0212

JIS X 0213

JIS X 0221日本文字部分レパートリ

文字符号化方式

ISO-2022-JP

EUC-JP

Shift_JIS

Shift_JISX0213

Shift_JIS-2004

EUC-JISX0213

EUC-JIS-2004

ISO-2022-JP-3

ISO-2022-JP-2004

漢字シフトコード

文字一覧

JIS X 0213非漢字一覧

JIS X 0213漢字一覧の1面

JIS X 0213漢字一覧の2面


JIS以外の公規格

MJ文字

入管正字

ARIB外字

ARIB外字の追加記号一覧


メーカーの規格

符号化文字集合

IBM拡張文字

マイクロソフト標準キャラクタセット

Adobe-Japan1

iモード絵文字

EZweb絵文字

SoftBank絵文字

今昔文字鏡

JIPS

EBCDIC

GT書体

KEIS

IBM漢字システム

レコード用文字符号

ビブロス外字

文字符号化方式

Microsoftコードページ932

MacJapanese

JEF漢字コード

U-PRESS



日本語を含む
多言語文字集合

Unicode
ISO/IEC 10646
JIS X 0221



基本多言語面

追加面

追加多言語面

追加漢字面

第三漢字面

追加特殊用途面

私用面


文字符号化方式

UTF-8

UTF-16/UCS-2

UTF-32/UCS-4

UTF-7

UTF-EBCDIC

GB 18030

SCSU

BOCU-1

文字一覧

Unicode一覧

Unicode一覧表

Unicode6.0の携帯電話の絵文字の一覧

UnicodeのEmojiの一覧


TRONコード

TRONコード


日本語以外用の
文字集合

初期の文字コード

ASCII

Baudot Code

ISO/IEC 646

ISO/IEC 6937

T.61

ISO/IEC 8859

-1

-2

-3

-4

-5

-6

-7

-8

-9

-10

-11

-13

-14

-15

-16

書誌用

ISO 5426

ISO 5426-2

ISO 5427

ISO 5428

ISO 6438

ISO 6861

ISO 6862

ISO 9036

ISO 10585

ISO 10586

ISO 10754

ISO 11822

ANSEL

MARC-8

国家標準

ArmSCII

CNS 11643

GOST 10859

GB 2312

HKSCS


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:28 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef