Unicode
符号化方式
UTF-7
UTF-8
CESU-8
UTF-16/UCS-2
UTF-32/UCS-4
UTF-EBCDIC
SCSU
Punycode (IDN/IDNA)
GB 18030
UCS
マッピング
書字方向
BOM
漢字統合
UnicodeとHTML
Unicodeと電子メール
Unicodeフォント
Unicodeの国際符号化文字集合は、百万 (1,114,112 = 220 + 216 もしくは 17 × 216, 十六進数で 110000) を超えるコードポイントをサポート可能である。
Unicode 5.0.0の時点で、これらのコードポイントのうち 102,012 (9.2%) が割り当て済みであり、ほかに 137,468 (12.3%) が私用に、2,048 がサロゲートに予約されており、そして 66 が非文字に指定され、872,582 (78.3%) が未割り当てのまま残されている。割り当てられたコードポイントの数は以下のような構成である。
2,684 は特定のブロック内への割り当てのために予約されている。
98,893 は図形文字である。
435 は制御、整形、グリフ/文字の異体字選択用の特殊用途文字である。
(さらに詳細な内訳は集計表を参照)
Unicodeの文字はさまざまな方法で分類できる。すべての文字は用字 (script) が割り当てられている (ただし多くは共通の、もしくは隣接した文字から受け継いだ共通の用字を割り当てられている)。Unicodeにおける用字とは、字母のみならず、その用字特有の句読点、ダイアクリティカルマーク、および他のマークや数字や記号をも含む一貫した書記体系である。一つの用字が一つかそれ以上の言語をサポートする。
文字は文字のブロックに割り当てられる。これらのブロックは通常8の倍数個のコードポイント群である。多くは、たとえば128個か256個のコードポイントのブロックにグループ分けされる。すべての文字は一般分類 (general category) と下位分類も割り当てられている。一般分類は以下の通り: 字母 (letter), マーク (mark)、数字 (number)、句読点 (punctuation)、記号 (symbol)、もしくは制御文字 (control; 言い換えると書式文字または非図形文字)。
文字のブロックは各種の面 (plane) に割り当てられている。現在ほとんどの文字は、最初の面である基本多言語面 (Basic Multilingual Plane) に割り当てられている。基本多言語面は2オクテットのみで指定可能であるため、これは従来のソフトウェアからの移行を容易にすることを助ける。最初の面に含まれない文字は通常きわめて特殊なものであるか、めったに使われない。
最初の256個のコードポイントは、西洋でもっとも広く使われている8ビットの文字コードであるISO/IEC 8859-1のものに対応する。結果として、最初の128文字はASCIIとも等価である。Unicodeはこれらをラテン文字のブロックとして参照しているが、これらの2ブロックはラテン文字以外でも広く有用な文字を多数含む。
目次
1 面
2 図形文字
3 互換文字
4 図形文字以外のもの
5 その他の特殊用途文字
5.1 幅0の境界表示子
5.2 不可視の区切り文字
5.3 不可視の乗算記号と関数適用
5.4 空白
5.5 改行を制御する文字
6 ホワイトスペース文字
7 私用文字
8 特殊なコードポイント
8.1 サロゲート
8.2 非文字
9 UCS文字割り当ての集計表
10 関連項目
10.1 表
11 外部リンク
12 参考文献
//