基本多言語面
[Wikipedia|▼Menu]
.mw-parser-output .pathnavbox{clear:both;border:1px outset #eef;padding:0.3em 0.6em;margin:0 0 0.5em 0;background-color:#eef;font-size:90%}.mw-parser-output .pathnavbox ul{list-style:none none;margin-top:0;margin-bottom:0}.mw-parser-output .pathnavbox>ul{margin:0}.mw-parser-output .pathnavbox ul li{margin:0}Unicode > 面 (文字コード) > 基本多言語面

基本多言語面(きほんたげんごめん、: Basic Multilingual Plane, BMP)は、ISO/IEC 10646の第0群第0およびUnicodeの第0面。最初の65536の符号位置である000016?FFFF16からなる。

最もよく使う、基本的な文字・記号のほとんどが含まれる。

UCS-2は、BMPのみからなる。また、Unicode 3.0までのUnicodeは、BMPのみからなっていた。
符号化

BMPの符号位置は、UTF-16UTF-8では、他の面より少ないオクテットバイト)数で符号化される。

UTF-8では、1?3オクテットで符号化される。

UTF-16では、2オクテットで符号化される。サロゲートペア(代用対)は必要がないため使われない。

UTF-32では、他の面と同様、4オクテットで符号化される。

歴史

BMPは、本来、1990年に4バイト文字符号化方式 (CCS) として策定されたDIS 10646の用語だった。DISはDraft International Standardの略で、ISOのドラフト(草稿)を意味する。DIS 10646は、UCS-4同様、文字を群、面、区、点の4バイトで符号化した。そのうち最初の面がBMPである。ただし、DIS 10646第1版はISO 2022準拠で、2016?7F16のみしか使えなかったため、BMPを始めとする各面は256×256 = 65536ではなく96×96 = 9216符号位置しか持たなかった。また、BMPは最初の面と言っても、第0面ではなく第2016群第2016面だった。

一方、DIS 10646とは別に、Unicodeが2バイトCCSとして民間で開発されていた。UnicodeはISO 2022非準拠で、256×256の1面からなっていた。

1991年、DIS 10646第1版は否決され、Unicodeとの一本化が決定された。BMPは、Unicodeと完全な互換性を持つことに決まった。ISO 2022準拠の制約が外され、1面がUnicodeと同じ256×256 = 65536符号位置を持つようになった。また、BMPは第0群第0面に移動された。こうして生まれたのがDIS 10646第2版で、これを元に、1993年にISO/IEC 10646が生まれた。
配置領域

BMPは、同種の用字をまとめた、いくつかの配置領域に分かれている。ただし、相次ぐ追加・変更により、配置領域による区分の意味は薄れている。(例えば、ラテン文字は1FFF16以下の領域が一杯になってきたので、かつて記号用の領域とされていた2xxx16の領域やCJK用であったAxxx16の領域を使用するようになった。また、互換文字の領域にあるものでも、他の領域に同じような文字がないため、互換文字としては扱わないものもある。例えばU+FA1FやU+FA24など。)

主な配置領域開始終了配置領域名
00001FFF一般スクリプト
20002DFF記号
2E0033FFCJKの表音文字と記号
34009FFFCJK統合漢字
A000A4CF彝文字
AC00D7AFハングル音節
D800DFFF代用符号位置
E000F8FF私用
F900FFFD互換文字と特殊文字

当初基本多言語面は以下のような4つの「領域」に分けられていた[1]

0000 33FFをアルファベット及び音節文字の用字並びに種々の記号のために使うA領域

3400 9FFFを中国、日本及び韓国の統合された漢字のために使うI領域

A000 DFFFを将来の標準化のために使うO領域

E000 FFFDを私用文字、互換文字と特殊文字の為に使うR領域

しかしながら上記のように例外的な配置が増えてきたため現在基本多言語面で「領域」として定められているのは以下の二つだけである[2]

D800 DFFFを代用符号位置に使用するS領域

E000 F8FFを私用領域

収録されている用字系

記号類、Unicode範囲は拡張や補助等を省略。

BMPの主な用字系英語表記日本語表記Unicode範囲
Latinラテン文字U+0041?U+0070
IPAIPAU+0250?U+02AF
Greekギリシア文字U+0370?U+30FF
Copticコプト文字U+2C80?U+2CFF
Cyrillicキリル文字U+0400?U+04FF
Glagoliticグラゴル文字U+2C00?U+2C5F
Armenianアルメニア文字U+0530?U+058F
Georgianグルジア文字U+10A0?U+10FF
Hebrewヘブライ文字U+0590?U+05FF
Arabicアラビア文字U+0600?U+06FF
Syriacシリア文字U+0700?U+074F
Thaanaターナ文字U+0780?U+07BF
Samaritanサマリア文字U+0800?U+083F
Mandaicマンダ文字U+0840?U+085F
Tifinaghティフィナグ文字U+2D30?U+2D7F
N’Koンコ文字U+07C0?U+07FF
Vaiヴァイ文字U+A500?U+A63F
Bamumバムン文字U+A6A0?U+A6FF
Ethiopicエチオピア文字U+1200?U+137F
Cherokeeチェロキー文字U+13A0?U+13FF
Unified Canadian Aboriginal Syllabics統合カナダ先住民文字U+1400?U+167F
Oghamオガム文字U+1680?U+169F
Runicルーン文字U+16A0?U+16F0
Devanagariデーヴァナーガリー文字U+0900?U+097F
Bengaliベンガル文字U+0980?U+09FF
Gurmukhiグルムキー文字U+0A00?U+0A7F
Gujaratiグジャラート文字U+0A80?U+0AFF
Oriyaオリヤー文字U+0B00?U+0B7F
Tamilタミル文字U+0B80?U+0BFF
Teluguテルグ文字U+0C00?U+0C7F
Kannadaカンナダ文字U+0C80?U+0CFF
Malayalamマラヤーラム文字U+0D00?U+0D7F
Sinhalaシンハラ文字U+0D80?U+0DFF
Meetei Mayekメイテイ文字U+ABC0?U+ABFF
Ol Chikiオル・チキ文字U+1C50?U+1C7F
Saurashtraサウラーシュトラ文字U+A880?U+A8DF
Syloti Nagriシロティナーガリー文字U+A800?U+A82F
Tibetanチベット文字U+0F00?U+0FFF
Phags-paパスパ文字U+A840?U+A87F
Lepchaレプチャ文字U+1C00?U+1C4F
Limbuリンブ文字U+1900?U+194F
Tagalogタガログ文字U+1700?U+171F
Hanunooハヌノオ文字U+1720?U+173F
Buhidブーヒッド文字U+1740?U+175F
Tagbanwaタグバンワ文字U+1760?U+177F
Javaneseジャワ文字U+A980?U+A9DF
Balineseバリ文字U+1B00?U+1B7F
Sundaneseスンダ文字U+1B80?U+1BBF
Batakバタク文字U+1BC0?U+1BFF
Rejangルジャン文字U+A930?U+A95F
Bugineseブギス文字U+1A00?U+1A1F
Chamチャム文字U+AA00?U+AA5F
Thaiタイ文字U+0E00?U+0E7F
Laoラーオ文字U+0E80?U+0EFF
Myanmarビルマ文字U+1000?U+109F
Khmerクメール文字U+1780?U+17FF
Kayah Liカヤー文字U+1000?U+109F
Tai Leタイ・ナ文字U+1950?U+197F
New Tai Lueタイ・ロ文字U+1980?U+19DF
Tai Vietタイ・ヴィエト文字U+AA80?U+AADF
Tai Thamラーンナー文字U+1A20?U+1AAF
Braille Patternsブライユ点字U+2800?U+28FF
HiraganaひらがなU+3040?U+309F
KatakanaカタカナU+30A0?U+30FF
Mongolianモンゴル文字U+1800?U+18AF
Bopomofo注音字母U+3100?U+312F
CJK Unified IdeographsCJK統合漢字U+4E00?U+9FFF
Yi Syllables彝文字U+A000?U+A4CF
Lisuリス文字U+A4D0?U+A4FF
Hangul SyllablesハングルU+AC00?U+D7A3

参考資料

用語の日本語表記は原則として次にならった。“ ⇒Unicode Terminology English - Japanese”. Unicode, Inc. 2010年1月1日閲覧。
関連項目

面 (文字コード)

追加面

追加多言語面

追加漢字面

第三漢字面

追加特殊用途面

私用面


多言語

多言語サイト

Unicode

超漢字


脚注[脚注の使い方]^ JIS X 0221:1995「国際符号化文字集合(UCS)ー第1部 体系及び基本多言語面」 p.9
^ JIS X 0221:2007「国際符号化文字集合(UCS)」 p.10

外部リンク

Roadmap to the BMP(英語)










文字コード
日本語用の
文字コード

JIS規格

符号化文字集合

JIS X 0201

JIS X 0208

JIS X 0212

JIS X 0213

JIS X 0221日本文字部分レパートリ

文字符号化方式

ISO-2022-JP

EUC-JP

Shift_JIS

Shift_JISX0213

Shift_JIS-2004

EUC-JISX0213

EUC-JIS-2004

ISO-2022-JP-3

ISO-2022-JP-2004

漢字シフトコード

文字一覧

JIS X 0213非漢字一覧

JIS X 0213漢字一覧の1面

JIS X 0213漢字一覧の2面


JIS以外の公規格

MJ文字

入管正字

ARIB外字

ARIB外字の追加記号一覧


メーカーの規格

符号化文字集合

IBM拡張文字

マイクロソフト標準キャラクタセット

Adobe-Japan1

iモード絵文字

EZweb絵文字

SoftBank絵文字

今昔文字鏡

JIPS

EBCDIC

GT書体

KEIS

IBM漢字システム

レコード用文字符号

ビブロス外字

文字符号化方式

Microsoftコードページ932

MacJapanese

JEF漢字コード

U-PRESS



日本語を含む
多言語文字集合

Unicode
ISO/IEC 10646
JIS X 0221



基本多言語面

追加面

追加多言語面

追加漢字面

第三漢字面

追加特殊用途面

私用面


文字符号化方式

UTF-8

UTF-16/UCS-2

UTF-32/UCS-4

UTF-7

UTF-EBCDIC

GB 18030

SCSU

BOCU-1

文字一覧

Unicode一覧

Unicode一覧表

Unicode6.0の携帯電話の絵文字の一覧

UnicodeのEmojiの一覧


TRONコード

TRONコード


日本語以外用の
文字集合

初期の文字コード

ASCII

Baudot Code

ISO/IEC 646


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:29 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef