GB_18030
[Wikipedia|▼Menu]
.mw-parser-output .sidebar{width:auto;float:right;clear:right;margin:0.5em 0 1em 1em;background:#f8f9fa;border:1px solid #aaa;padding:0.2em;text-align:center;line-height:1.4em;font-size:88%;border-collapse:collapse;display:table}body.skin-minerva .mw-parser-output .sidebar{display:table!important;float:right!important;margin:0.5em 0 1em 1em!important}.mw-parser-output .sidebar-subgroup{width:100%;margin:0;border-spacing:0}.mw-parser-output .sidebar-left{float:left;clear:left;margin:0.5em 1em 1em 0}.mw-parser-output .sidebar-none{float:none;clear:both;margin:0.5em 1em 1em 0}.mw-parser-output .sidebar-outer-title{padding:0 0.4em 0.2em;font-size:125%;line-height:1.2em;font-weight:bold}.mw-parser-output .sidebar-top-image{padding:0.4em}.mw-parser-output .sidebar-top-caption,.mw-parser-output .sidebar-pretitle-with-top-image,.mw-parser-output .sidebar-caption{padding:0.2em 0.4em 0;line-height:1.2em}.mw-parser-output .sidebar-pretitle{padding:0.4em 0.4em 0;line-height:1.2em}.mw-parser-output .sidebar-title,.mw-parser-output .sidebar-title-with-pretitle{padding:0.2em 0.8em;font-size:145%;line-height:1.2em}.mw-parser-output .sidebar-title-with-pretitle{padding:0 0.4em}.mw-parser-output .sidebar-image{padding:0.2em 0.4em 0.4em}.mw-parser-output .sidebar-heading{padding:0.1em 0.4em}.mw-parser-output .sidebar-content{padding:0 0.5em 0.4em}.mw-parser-output .sidebar-content-with-subgroup{padding:0.1em 0.4em 0.2em}.mw-parser-output .sidebar-above,.mw-parser-output .sidebar-below{padding:0.3em 0.8em;font-weight:bold}.mw-parser-output .sidebar-collapse .sidebar-above,.mw-parser-output .sidebar-collapse .sidebar-below{border-top:1px solid #aaa;border-bottom:1px solid #aaa}.mw-parser-output .sidebar-navbar{text-align:right;font-size:75%;padding:0 0.4em 0.4em}.mw-parser-output .sidebar-list-title{padding:0 0.4em;text-align:left;font-weight:bold;line-height:1.6em;font-size:105%}.mw-parser-output .sidebar-list-title-c{padding:0 0.4em;text-align:center;margin:0 3.3em}@media(max-width:720px){body.mediawiki .mw-parser-output .sidebar{width:100%!important;clear:both;float:none!important;margin-left:0!important;margin-right:0!important}}

Unicode
文字符号化スキーム
UTF-7
UTF-8
CESU-8
UTF-16
UTF-32
UTF-EBCDIC
SCSU
Punycode (IDN/IDNA)
GB 18030
その他
UCS
マッピング
書字方向
BOM
漢字統合
UnicodeとHTML
Unicodeと電子メール
Unicodeフォント
.mw-parser-output .hlist ul,.mw-parser-output .hlist ol{padding-left:0}.mw-parser-output .hlist li,.mw-parser-output .hlist dd,.mw-parser-output .hlist dt{margin-right:0;display:inline-block;white-space:nowrap}.mw-parser-output .hlist dt:after,.mw-parser-output .hlist dd:after,.mw-parser-output .hlist li:after{white-space:normal}.mw-parser-output .hlist li:after,.mw-parser-output .hlist dd:after{content:" ・ ";font-weight:bold}.mw-parser-output .hlist dt:after{content:": "}.mw-parser-output .hlist-pipe dd:after,.mw-parser-output .hlist-pipe li:after{content:" 。";font-weight:normal}.mw-parser-output .hlist-hyphen dd:after,.mw-parser-output .hlist-hyphen li:after{content:" - ";font-weight:normal}.mw-parser-output .hlist-comma dd:after,.mw-parser-output .hlist-comma li:after{content:"、 ";font-weight:normal}.mw-parser-output .hlist-slash dd:after,.mw-parser-output .hlist-slash li:after{content:" / ";font-weight:normal}.mw-parser-output .hlist dd:last-child:after,.mw-parser-output .hlist dt:last-child:after,.mw-parser-output .hlist li:last-child:after{content:none}.mw-parser-output .hlist dd dd:first-child:before,.mw-parser-output .hlist dd dt:first-child:before,.mw-parser-output .hlist dd li:first-child:before,.mw-parser-output .hlist dt dd:first-child:before,.mw-parser-output .hlist dt dt:first-child:before,.mw-parser-output .hlist dt li:first-child:before,.mw-parser-output .hlist li dd:first-child:before,.mw-parser-output .hlist li dt:first-child:before,.mw-parser-output .hlist li li:first-child:before{content:" (";font-weight:normal}.mw-parser-output .hlist dd dd:last-child:after,.mw-parser-output .hlist dd dt:last-child:after,.mw-parser-output .hlist dd li:last-child:after,.mw-parser-output .hlist dt dd:last-child:after,.mw-parser-output .hlist dt dt:last-child:after,.mw-parser-output .hlist dt li:last-child:after,.mw-parser-output .hlist li dd:last-child:after,.mw-parser-output .hlist li dt:last-child:after,.mw-parser-output .hlist li li:last-child:after{content:") ";font-weight:normal}.mw-parser-output .hlist ol{counter-reset:listitem}.mw-parser-output .hlist ol>li{counter-increment:listitem}.mw-parser-output .hlist ol>li:before{content:" "counter(listitem)" ";white-space:nowrap}.mw-parser-output .hlist dd ol>li:first-child:before,.mw-parser-output .hlist dt ol>li:first-child:before,.mw-parser-output .hlist li ol>li:first-child:before{content:" ("counter(listitem)" "}.mw-parser-output .navbar{display:inline;font-size:75%;font-weight:normal}.mw-parser-output .navbar-collapse{float:left;text-align:left}.mw-parser-output .navbar-boxtext{word-spacing:0}.mw-parser-output .navbar ul{display:inline-block;white-space:nowrap;line-height:inherit}.mw-parser-output .navbar-brackets::before{margin-right:-0.125em;content:"[ "}.mw-parser-output .navbar-brackets::after{margin-left:-0.125em;content:" ]"}.mw-parser-output .navbar li{word-spacing:-0.125em}.mw-parser-output .navbar-mini abbr{font-variant:small-caps;border-bottom:none;text-decoration:none;cursor:inherit}.mw-parser-output .navbar-ct-full{font-size:114%;margin:0 7em}.mw-parser-output .navbar-ct-mini{font-size:114%;margin:0 4em}.mw-parser-output .infobox .navbar{font-size:88%}.mw-parser-output .navbox .navbar{display:block;font-size:88%}.mw-parser-output .navbox-title .navbar{float:left;text-align:left;margin-right:0.5em}









GB 18030は、中華人民共和国(中国)が制定した文字コード文字セット)の国家規格である。規格名は現在《GB 18030-2005 信息技? 中文??字符集》 (Information technology -- Chinese coded character set) といい、当初は《GB 18030-2000 信息交?用?字??字符集基本集的?充》 (Information Technology -- Chinese ideograms coded character set for information interchange -- Extension for the basic set) といった。IANA登録名はGB18030である。
概要

正式な規格として制定されることのなかったそれまでの拡張文字セットGBKに代わる上位集合であり、互換性も維持している。GB 18030は漢字のほかに少数民族言語の文字をサポートする。漢字は、中華人民共和国の規範漢字である簡体字のほか、Unicodeに含まれる繁体字や日本、韓国などで使われる漢字をも含む。

この規格の初版は信息産業部電子工業標準化研究所により起草され、国家質量技術監督局により2000年3月17日に発布された。現行の版は、国家質量監督検験検疫総局と中国国家標準化管理委員会によって2005年11月8日に発布され、2006年5月1日に実施されている。いずれも規格票は中国標準出版社から出版された。この規格のサポートは、中国で販売されるすべてのソフトウェア製品に対して義務づけられている。

GB 18030は従来の文字コードと互換性を維持したUnicode伝送形式(Unicode Transformation Format、すなわちすべてのUnicode符号位置を符号化する文字符号化方式)であるとみなせる。言いかえると、GB 18030はUTF-8(ASCIIと互換性を維持している)の中国版である。UTF-8と同様、GB 18030はASCIIの上位集合でありUnicode符号位置の範囲全体を表現できる。加えて、GB 18030はGB 2312の上位集合でもある。GB 18030は、GB 2312の拡張であるGBKとの互換性も維持している。ただしユーロ記号については、GBKのマイクロソフトによる実装であるコードページ936の後期バージョンで1バイト符号の0x80を割り当てたのに対し、GB 18030では2バイト符号のA2 E3を割り当てている。

マッピングデータの一部は (GBKと同様)変換表に基づく。残りは計算で求められる。GB 18030はその基となった古い規格の悪い側面も継承している。最も目立つのは、GB 18030のシーケンスからASCII文字を安全に検索するには特別なコーディングが必要なことである。

ほとんどの主要なコンピュータ企業は、各社のバイナリ形式やOS呼び出しで使うための基本的な形式として何らかのバージョンのUnicode上ですでに標準化を行っていた。しかし、ほとんどの場合Unicode 1.0で当初から定義されていた基本多言語面 (BMP) の符号位置しかサポートしていなかった。BMPは65,536の符号位置しかサポートしておらず、しばしば16ビットでUCS-2として符号化された。

ソフトウェアのUnicodeサポートが重要になっていくにつれて、中国はBMP外の特定の符号位置サポートを義務づけることを決定した。これは、ソフトウェアはもはや文字を16ビット固定長の存在 (UCS-2) であるとみなしてお茶を濁せなくなったことを意味する。そのため、UTF-8UTF-16のような可変幅形式のデータを処理するか、より大きなUCS-4UTF-32のような固定幅形式に移行するかのどちらかを行わなければならなくなった。マイクロソフトはWindows 2000でUCS-2からUTF-16への変更を行った。
技術的な詳細

4バイトコードの枠組みは、それぞれのサイズが2バイトの単位2つからなると考えられる。各単位はGBKの2バイト文字に似た形式だが、第2バイトの値の範囲は0x30-0x39(10進数のASCIIコード)である。第1バイトは以前と同様、0x81から0xFEの範囲である。これはGBKで安全な文字列検索ルーチンはGB 18030でも比較的安全な可能性が高いことを意味する。これは基本的なバイト指向の検索ルーチンがEUCでも比較的安全なことと似ている。

これにより、可能な4バイトシーケンスすべてで合計 1,587,600 (126 × 10 × 126 × 10) の符号位置が与えられ、Unicodeの 1,112,046 の符号位置を容易にカバーできる。

さらに複雑なことに4バイトシーケンスを対応する符号位置との間で変換するための単純な規則は存在しない。代わりに、コードは1バイト符号や2バイト符号に割り当てられていないUnicode符号位置にのみ順番に割り当てられる (先頭バイトが上位桁を含み、最終バイトが下位桁を含む)。

例U+00DE (T) → 81 30 89 37U+00DF (s) → 81 30 89 38U+00E0 (a) → A8 A4U+00E1 (a) → A8 A2U+00E2 (a) → 81 30 89 39U+00E3 (a) → 81 30 8A 30
GBKとの互換性

GB 18030はGBKの上位互換ということになっているが、Unicodeへの割り当てという観点からは必ずしも互換性がない。

GBKに収録された文字のうち95文字は制定時点でUnicodeに収録されていなかったため、一時的に私用領域へ割り当てられた。うちUnicode 3.0までに収録された80文字は、GB 18030-2000では正式にUnicodeへ収録されたときの符号位置へ割り当てを変更されている[1]。GB18030-2005ではさらに1文字の割り当てが4バイト符号と入れ替えられた[2]。残り14文字もUnicode 4.1までにすべて収録されたが、GB 18030での割り当ては変更されていない。
脚注^ 《GB 18030-2000 信息交?用?字??字符集基本集的?充》 pp.284-286 附?E (?准的附?) 部分字符的代?的?明
^ 《GB 18030-2005 信息技? 中文??字符集》 附?E (?范性附?) 部分字符代?的?明

関連項目

GBK

GBコード

GB規格

CJKV

中国の文字コード

Unicode符号化方式の比較

gbunicnv.exe - マイクロソフトによるUnicodeとGB18030の相互変換を実現するソフト

外部リンク

日本語

漢字文献情報処理研究会: GB 18030関連情報

ダイナコムウェア : ライセンス : 中国新文字コード規格 GB18030

中国語(簡体字)

全国信息技??准化技?委?会 GB 18030介?及其与相??准的比? - 全国情報技術標準化技術委員会 GB 18030の紹介と関連規格との比較

新浪网 科技?代 ?于GB18030?字???准集 - tech.sina.com.cn GB 18030について

国家?准化管理委?会 国家?准?? GB 18030-2005 - 国家標準化管理委員会 GB規格検索

英語

IANA Charset Registration for GB18030

GB 18030-2000の概要

GB18030入門。GB2312とGBKからの進化を含む(Sun)

GB18030: A mega-codepage(IBM DeveloperWorks)

中国の新しいGB 18030文字コード規格を見る

GB18030とUnicodeの間の信頼できる変換表 - Firefoxのバグにより、この巨大なXMLファイルでFirefoxはハングするかもしれない。他のブラウザはこのファイルを処理できる。

ICU Converter Explorer: GB18030

Unicode CJK統合漢字拡張A(PDF、1.5MB)

Unicode CJK統合漢字拡張B(PDF、13 MB)

Windows 2000/XP用GB18030サポートパッケージ、マイクロソフトによる漢字、チベット文字、イ文字、モンゴル文字およびタイ文字フォントを含む

SILのフリーウェアフォント、エディタおよび文書


記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:15 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef