Unicode
文字符号化スキーム
UTF-7
UTF-8
CESU-8
UTF-16
UTF-32
UTF-EBCDIC
SCSU
Punycode (IDN/IDNA)
GB 18030
その他
UCS
マッピング
書字方向
BOM
漢字統合
UnicodeとHTML
Unicodeと電子メール
Unicodeフォント
UnicodeやISO/IEC 10646には、単純計算で U+0000 ? U+10FFFF の 1,114,112 = 220 + 216 個の符号位置がある。
Unicode 5.0.0の時点で、これらの符号位置のうち 102,012 (9.2%) が割り当て済みであり、ほかに 137,468 (12.3%) が#私用文字に、2,048 が#代用符号位置に予約されており、そして 66 が#非文字に指定され、872,582 (78.3%) が未割り当てのまま残されている。割り当てられた符号位置の数は以下のような構成である。
2,684 は特定のブロック内への割り当てのために予約されている。
98,893 は図形文字である。
435 は制御、整形、グリフ/文字の異体字選択用の#その他の特殊用途文字である。
(さらに詳細な内訳は#UCS文字割り当ての集計表を参照)
Unicodeの文字はさまざまな方法で分類できる。すべての文字は用字 (script) が割り当てられている。なお、たくさんの文字に「Common」(用字をまたがって共通に使う)、もしくは「Inherited」(隣接した文字から用字を受け継ぐ) という用字が割り当てられている。Unicodeにおける用字とは、字のみならず、その用字特有の句読点、ダイアクリティカルマーク、および他のマークや数字や記号をも含む一貫した書記体系である。一つの用字が一つかそれ以上の言語をサポートする。
文字は文字のブロックに割り当てられる。これらのブロックは通常8の倍数個の符号位置群である。多くは、たとえば128個か256個の符号位置のブロックにグループ分けされる。すべての文字は一般カテゴリ (general category) と下位カテゴリも割り当てられている。一般カテゴリは次の通り——字 (letter), マーク (mark)、数字 (number)、句読点 (punctuation)、記号 (symbol)、もしくは制御文字 (control; 言い換えると書式文字または非図形文字)。
文字のブロックは各種の面 (plane) に割り当てられている。現在ほとんどの文字は、最初の面である基本多言語面 (Basic Multilingual Plane) に割り当てられている。基本多言語面は2オクテットのみで指定可能であるため、これは従来のソフトウェアからの移行を容易にすることを助ける。最初の面に含まれない文字は通常きわめて特殊なものであるか、めったに使われない。
最初の256個の符号位置は、西洋でもっとも広く使われている8ビットの文字コードであるISO/IEC 8859-1のものに対応する。結果として、最初の128文字はASCIIとも等価である。Unicodeはこれらをラテン文字のブロックとして参照しているが、これらの2ブロックはラテン文字以外でも広く有用な文字を多数含む。目次
1 面
2 図形文字
3 互換文字
4 図形文字以外のもの
5 その他の特殊用途文字
5.1 ゼロ幅の境界表示子
5.2 不可視の区切り文字
5.3 不可視の乗算記号と関数適用
5.4 空白
5.5 改行を制御する文字
6 ホワイトスペース文字
7 私用文字
8 特殊な符号位置
8.1 代用符号位置
8.2 非文字