Unicode

[Wikipedia|▼Menu]

Unicode
符号化方式

UTF-7

UTF-8

CESU-8

UTF-16/UCS-2

UTF-32/UCS-4

UTF-EBCDIC

SCSU

Punycode (IDN/IDNA)

GB 18030

UCS
マッピング
書字方向
BOM
漢字統合
UnicodeとHTML
Unicodeと電子メール
Unicodeフォント

Unicode(ユニコード)とはコンピュータ上で多言語文字を単一の文字コードで取り扱うために1980年代に提唱された文字コードである。

ゼロックス社が提唱し、マイクロソフトアップルIBMサン・マイクロシステムズヒューレット・パッカードジャストシステムなどが参加するユニコードコンソーシアムにより作られ、1993年ISOでもISO/IEC 10646の一部として標準化された。
目次

1 概要

2 文字集合

3 エンコーディング(符号化方式)

4 拡張領域

4.1 サロゲートペア

4.2 拡張領域に含まれる文字


5 歴史

6 Unicodeの諸問題

6.1 バージョンごとの非互換性

6.2 日本語環境でのUnicodeの諸問題

6.2.1 YEN SIGN問題

6.2.2 WAVE DASH - FULLWIDTH TILDE問題



7 一覧

8 関連項目

9 外部リンク

10 脚注

//


概要

Unicodeは世界で使われる全ての文字を共通の符号化文字集合にて利用できるようにしようという考えで作られ、NT系Microsoft Windows (Windows)、Mac OS XLinuxJavaなどでの内部コードとして利用されている。

元々16ビットの文字集合で全ての文字の網羅を目指して開発されたが、コードポイントが圧倒的に足りず、Unicode 2.0以降では21ビットの文字集合として規定されている。当初の16ビットの領域はUnicode 2.0以降では基本多言語面 (BMP) と呼ばれ、ISO/IEC 10646においてUCS-2で定義される範囲と同一である。一方ISO/IEC 10646におけるUCS-4は31ビットの文字集合であり、21ビットのUnicodeとは別物である。

収録されている文字は、各国で標準として規定されている文字セットや実際に使用されている文字を持ち寄り、委員会により取捨選択されている。日本の文字については当初よりJIS X 0201JIS X 0208JIS X 0212を、Unicode 3.1ではJIS X 0213の内容を収録している。

また収録においては同じ意味・目的の文字は、できる限り同じコードポイントに割り当てる方針を取っている。そのため、CJK統合漢字中国語日本語朝鮮語で使用される漢字が統合された領域)は大きな議論となった。各国のコードはISO/IEC 10646とは別の組織で標準化されているため、厳密には違うものであるが、コードポイントを共有する文字の間で非互換が生じないように慎重に標準化が進められている。

既存の符号化方式との相互運用性もある程度考慮されており、同じグリフ(字形)の文字であっても、歴史上・実用上の識別が求められる場合には互換領域がとられ、Unicodeを介在して文字コード変換を行った際に、復元可能となるように考慮されている。しかしながら、他の符号化文字集合(文字符号化方式)との変換の整合性においては、いくつかの問題がある。たとえば、CP51932eucJP-MSのように既存文字コード同士でUnicodeとの対応が一部違うために文字化けが発生することがある。

Unicodeの文字を表現する場合、"U+"にその文字のコードポイントを表す16進数を続けた文字列を使って表す。BMPの場合は4桁、それ以上では必要に応じて5、6桁で表す。


文字集合

Unicodeに収録されている文字については、#一覧の「コード順分類一覧」を参照。


エンコーディング(符号化方式)

ISO/IECの規格が定めている符号化方式については、ISO/IEC 10646#文字集合のサブセットおよびISO/IEC 10646#文字符号化方式を参照
UTF-7
UTF-16 (後述)で表したUnicodeをBase64で変換して表す方式。ただし、ASCIIのアルファベット範囲等についてはBase64に変換しない等、特殊なエンコーディングを行う。かつてのSMTP等のように、7ビット単位でしかデータを扱えない通信方式を利用する場合を想定して作られている。ステートフルエンコーディングであり、運用上問題が多いため、現在ではこの方式は推奨されていない。Unicode文字を7ビット単位伝送通信にどうしても通さなければならない場合は、替わりにUTF-8をQuoted-printableあるいはBase64で変換するなどの方式が好ましいとされる。


モデル芸能人も愛用アイテム!
究極のアソコソープ!完売直前

[次ページ]
[オプション/リンク一覧]
[記事の検索]
[おまかせ表示]
[トップページ]
[ニュースをチェック!]
[列車運行情報]
Size:43 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:Mamenoki