基本多言語面 - 暇つぶしWikipedia

基本多言語面

.mw-parser-output .pathnavbox{clear:both;border:1px outset #eef;padding:0.3em 0.6em;margin:0 0 0.5em 0;background-color:#eef;font-size:90%}.mw-parser-output .pathnavbox ul{list-style:none none;margin-top:0;margin-bottom:0}.mw-parser-output .pathnavbox>ul{margin:0}.mw-parser-output .pathnavbox ul li{margin:0}Unicode > 面 (文字コード) > 基本多言語面

基本多言語面（きほんたげんごめん、英: Basic Multilingual Plane, BMP）は、ISO/IEC 10646の第0群第0面およびUnicodeの第0面。最初の65536の符号位置である000016?FFFF16からなる。

最もよく使う、基本的な文字・記号のほとんどが含まれる。

UCS-2は、BMPのみからなる。また、Unicode 3.0までのUnicodeは、BMPのみからなっていた。
符号化

BMPの符号位置は、UTF-16やUTF-8では、他の面より少ないオクテット（バイト）数で符号化される。

UTF-8では、1?3オクテットで符号化される。

UTF-16では、2オクテットで符号化される。サロゲートペア（代用対）は必要がないため使われない。

UTF-32では、他の面と同様、4オクテットで符号化される。

歴史

BMPは、本来、1990年に4バイト文字符号化方式 (CCS) として策定されたDIS 10646の用語だった。DISはDraft International Standardの略で、ISOのドラフト（草稿）を意味する。DIS 10646は、UCS-4同様、文字を群、面、区、点の4バイトで符号化した。そのうち最初の面がBMPである。ただし、DIS 10646第1版はISO 2022準拠で、2016?7F16のみしか使えなかったため、BMPを始めとする各面は256×256 = 65536ではなく96×96 = 9216符号位置しか持たなかった。また、BMPは最初の面と言っても、第0面ではなく第2016群第2016面だった。

一方、DIS 10646とは別に、Unicodeが2バイトCCSとして民間で開発されていた。UnicodeはISO 2022非準拠で、256×256の1面からなっていた。

1991年、DIS 10646第1版は否決され、Unicodeとの一本化が決定された。BMPは、Unicodeと完全な互換性を持つことに決まった。ISO 2022準拠の制約が外され、1面がUnicodeと同じ256×256 = 65536符号位置を持つようになった。また、BMPは第0群第0面に移動された。こうして生まれたのがDIS 10646第2版で、これを元に、1993年にISO/IEC 10646が生まれた。
配置領域

BMPは、同種の用字をまとめた、いくつかの配置領域に分かれている。ただし、相次ぐ追加・変更により、配置領域による区分の意味は薄れている。（例えば、ラテン文字は1FFF16以下の領域が一杯になってきたので、かつて記号用の領域とされていた2xxx16の領域やCJK用であったAxxx16の領域を使用するようになった。また、互換文字の領域にあるものでも、他の領域に同じような文字がないため、互換文字としては扱わないものもある。例えばU+FA1FやU+FA24など。）

主な配置領域開始終了配置領域名
00001FFF一般スクリプト
20002DFF記号
2E0033FFCJKの表音文字と記号
34009FFFCJK統合漢字
A000A4CF彝文字
AC00D7AFハングル音節
D800DFFF代用符号位置
E000F8FF私用
F900FFFD互換文字と特殊文字

当初基本多言語面は以下のような4つの「領域」に分けられていた [1]。

0000 33FFをアルファベット及び音節文字の用字並びに種々の記号のために使うA領域

3400 9FFFを中国、日本及び韓国の統合された漢字のために使うI領域

A000 DFFFを将来の標準化のために使うO領域

E000 FFFDを私用文字、互換文字と特殊文字の為に使うR領域

しかしながら上記のように例外的な配置が増えてきたため現在基本多言語面で「領域」として定められているのは以下の二つだけである [2]。

D800 DFFFを代用符号位置に使用するS領域

E000 F8FFを私用領域

 収録されている用字系

記号類、Unicode範囲は拡張や補助等を省略。

BMPの主な用字系英語表記日本語表記Unicode範囲
Latinラテン文字U+0041?U+0070
IPAIPAU+0250?U+02AF
Greekギリシア文字U+0370?U+30FF
Copticコプト文字U+2C80?U+2CFF
Cyrillicキリル文字U+0400?U+04FF
Glagoliticグラゴル文字U+2C00?U+2C5F
Armenianアルメニア文字U+0530?U+058F
Georgianグルジア文字U+10A0?U+10FF
Hebrewヘブライ文字U+0590?U+05FF
Arabicアラビア文字U+0600?U+06FF
Syriacシリア文字U+0700?U+074F
Thaanaターナ文字U+0780?U+07BF
Samaritanサマリア文字U+0800?U+083F
Mandaicマンダ文字U+0840?U+085F
Tifinaghティフィナグ文字U+2D30?U+2D7F
N’Koンコ文字U+07C0?U+07FF
Vaiヴァイ文字U+A500?U+A63F
Bamumバムン文字U+A6A0?U+A6FF
Ethiopicエチオピア文字U+1200?U+137F
Cherokeeチェロキー文字U+13A0?U+13FF
Unified Canadian Aboriginal Syllabics統合カナダ先住民文字U+1400?U+167F
Oghamオガム文字U+1680?U+169F
Runicルーン文字U+16A0?U+16F0
Devanagariデーヴァナーガリー文字U+0900?U+097F
Bengaliベンガル文字U+0980?U+09FF
Gurmukhiグルムキー文字U+0A00?U+0A7F
Gujaratiグジャラート文字U+0A80?U+0AFF
Oriyaオリヤー文字U+0B00?U+0B7F
Tamilタミル文字U+0B80?U+0BFF
Teluguテルグ文字U+0C00?U+0C7F
Kannadaカンナダ文字U+0C80?U+0CFF
Malayalamマラヤーラム文字U+0D00?U+0D7F
Sinhalaシンハラ文字U+0D80?U+0DFF
Meetei Mayekメイテイ文字U+ABC0?U+ABFF
Ol Chikiオル・チキ文字U+1C50?U+1C7F
Saurashtraサウラーシュトラ文字U+A880?U+A8DF
Syloti Nagriシロティナーガリー文字U+A800?U+A82F
Tibetanチベット文字U+0F00?U+0FFF
Phags-paパスパ文字U+A840?U+A87F
Lepchaレプチャ文字U+1C00?U+1C4F
Limbuリンブ文字U+1900?U+194F
Tagalogタガログ文字U+1700?U+171F
Hanunooハヌノオ文字U+1720?U+173F
Buhidブーヒッド文字U+1740?U+175F
Tagbanwaタグバンワ文字U+1760?U+177F
Javaneseジャワ文字U+A980?U+A9DF
Balineseバリ文字U+1B00?U+1B7F
Sundaneseスンダ文字U+1B80?U+1BBF
Batakバタク文字U+1BC0?U+1BFF
Rejangルジャン文字U+A930?U+A95F
Bugineseブギス文字U+1A00?U+1A1F
Chamチャム文字U+AA00?U+AA5F
Thaiタイ文字U+0E00?U+0E7F
Laoラーオ文字U+0E80?U+0EFF
Myanmarビルマ文字U+1000?U+109F
Khmerクメール文字U+1780?U+17FF
Kayah Liカヤー文字U+1000?U+109F
Tai Leタイ・ナ文字U+1950?U+197F
New Tai Lueタイ・ロ文字U+1980?U+19DF
Tai Vietタイ・ヴィエト文字U+AA80?U+AADF
Tai Thamラーンナー文字U+1A20?U+1AAF
Braille Patternsブライユ点字U+2800?U+28FF
HiraganaひらがなU+3040?U+309F
KatakanaカタカナU+30A0?U+30FF
Mongolianモンゴル文字U+1800?U+18AF
Bopomofo注音字母U+3100?U+312F
CJK Unified IdeographsCJK統合漢字U+4E00?Ｕ+9FFF
Yi Syllables彝文字U+A000?U+A4CF
Lisuリス文字U+A4D0?U+A4FF
Hangul SyllablesハングルU+AC00?U+D7A3

参考資料