CJK互換漢字
[Wikipedia|▼Menu]
.mw-parser-output .side-box{margin:4px 0;box-sizing:border-box;border:1px solid #aaa;font-size:88%;line-height:1.25em;background-color:#f9f9f9;display:flow-root}.mw-parser-output .side-box-abovebelow,.mw-parser-output .side-box-text{padding:0.25em 0.9em}.mw-parser-output .side-box-image{padding:2px 0 2px 0.9em;text-align:center}.mw-parser-output .side-box-imageright{padding:2px 0.9em 2px 0;text-align:center}@media(min-width:500px){.mw-parser-output .side-box-flex{display:flex;align-items:center}.mw-parser-output .side-box-text{flex:1}}@media(min-width:720px){.mw-parser-output .side-box{width:238px}.mw-parser-output .side-box-right{clear:right;float:right;margin-left:1em}.mw-parser-output .side-box-left{margin-right:1em}}この項目には、一部のコンピュータや閲覧ソフトで表示できない文字(JIS X 0213、CJK互換漢字、ハングル)が含まれています(詳細)。

CJK互換漢字
CJK Compatibility Ideographs
範囲U+F900..U+FAFF
(512 個の符号位置)
基本多言語面
用字漢字
割当済472 個の符号位置
未使用40 個の保留
元となった標準規格KS X 1001
Big5
IBM 32
JIS X 0213
ARIB STD-B24
KPS 10721-2000
Unicodeのバージョン履歴

1.0.1302 (+302)
3.2361 (+59)
4.1467 (+106)
5.2470 (+3)
6.1472 (+2)
備考: [1][2][3]
テンプレートを表示

CJK互換漢字(シージェーケーごかんかんじ、英語: CJK Compatibility Ideographs)は、Unicodeブロックの一つであり、Unicodeの統合規則に従うなら本来CJK統合漢字に統合されるはずであるが、既存の文字コードとの互換性のためUnicodeに収録された互換文字の一種である。
内訳

文字コード順ではなく、登録された順に紹介する。
U+F900 - U+FA0B
韓国文字コード規格KS X 1001(収録当時の規格番号はKS C 5601)に含まれる重複漢字との往復変換を保証するために収録された漢字。KS X 1001では漢字を韓国語での辞書順に配列しているが、一部の漢字には複数の読みが存在する。KS X 1001は同じ形でも複数の読みを持つ漢字は分離して収録しているため、これらは統合されて統合漢字に収録された。韓国はこれらの文字に対して原規格分離を主張しなかったが、往復変換を保証できなくては困るとしたユニコードコンソーシアムの代表からの要求により、互換漢字として収録された[4]。この範囲の内、U+F91D(欄)、U+F928(廊)、U+F929(朗)、U+F936(虜)、U+F970(殺)、U+F9D0(類)、U+F9DC(隆)は、IBM拡張漢字およびJIS X 0213と共有している。
U+FA0C - U+FA0D
台湾の文字コードBig5に誤って重複して収録された2文字に対応する漢字。
U+FA0E - U+FA2D
IBM拡張漢字のうち、CJK統合漢字のブロックに収録されなかったもの。IRGを経由する漢字の通常の登録提案を経ずに、カナダからの提案としてISO/IEC 10646に収録されたため、「カナダ漢字」と呼ばれることがある[5]。この範囲の漢字のうち12文字は、CJK統合漢字ブロック内に同一とみなせる(統合できる)文字が存在しないため実際にはCJK統合漢字とされている。なお、U+FA11(.mw-parser-output .jis2004font{font-family:"源ノ角ゴシック JP Normal","源ノ角ゴシック JP","Source Han Sans Normal","Source Han Sans","NotoSansJP-DemiLight","Noto Sans CJK JP DemiLight","ヒラギノ角ゴ ProN W3","ヒラギノ角ゴ ProN","Hiragino Kaku Gothic ProN","メイリオ",Meiryo,"新ゴ Pr6N R","A-OTF 新ゴ Pr6N R","小塚ゴシック Pr6N M","IPAexゴシック","Takaoゴシック","XANO明朝U32","XANO明朝","和田研中丸ゴシック2004絵文字","和田研中丸ゴシック2004ARIB","和田研中丸ゴシック2004P4","和田研細丸ゴシック2004絵文字","和田研細丸ゴシック2004ARIB","和田研細丸ゴシック2004P4","和田研細丸ゴシックProN",YOzFont04,"IPA Pゴシック","Yu Gothic UI","Meiryo UI","MS Pゴシック";font-feature-settings:"jp04"1}ア)はU+5D0E(崎)、U+FA14(黶jはU+6B05(欅)およびU+6989(?)、U+FA1F(掾jはU+81C8(臈)にそれぞれ統合漢字ブロックの異体字を持つが、字体差が大きいとみなされ統合の範疇とされていない。逆にU+FA20(蘒)は、U+8612(?)と字体差が大きい(草冠と禾偏を取った部分が「亀」か「龜」かで、画数差が5画ある。)にもかかわらず統合されており、互換漢字となっている。異体字セレクタの方もU+8612を親字としてU+FA20の字形が規定されている。また、後にCJK統合漢字拡張BブロックのU+27EAFにU+FA23と同じものが登録されたが、これはU+FA23を統合漢字扱いすると決めた後に登録されたため、誤って重複登録されたことになる。
U+2F800 - U+2FA1D
台湾の文字コード規格CNS 11643はUnicodeと包摂規準が大きく異なるため、Unicodeでは統合される漢字の多数が別々に収録されている。それらの文字との互換性を確保するために収録された文字の一群。Unicode 3.1で追加。数が多いため、BMP外(追加漢字面)に新たなブロックを作成して収録された。「CJK互換漢字補助」も参照
U+FA30 - U+FA6A
日本の文字コード規格JIS X 0213において人名許容・康煕別掲と呼ばれる漢字の一群と互換性を確保するために収録されたもの。Unicode 3.2で追加。これらは当初から原規格であったJIS X 0208では包摂されていたため、Unicodeでもたまたま他国の規格に含まれていたものを除いて統合されていた。
U+FA70 - U+FAD9
北朝鮮の文字コード規格KPS 9566およびKPS 10721に収録されている漢字との互換性を確保するために収録された漢字の一群。Unicode 4.1で追加。
U+FA6B - U+FA6D
日本のデータ放送規格ARIB STD-B24で使われる文字コードに収録されている独自の漢字(ARIB外字)のうち、既存の漢字に包摂されていると考えられるもの[6]。Unicode 5.2で追加[7]
U+FA2E - U+FA2F
U+F900 - U+FA0Bで定義されたうち2字(U+F92CおよびU+F9B8)に誤りがあり、それを修正するためにUnicode 6.1で収録された。
コード順

コード範囲内容関連国および地域
U+F900 - U+FA0BPronunciation variants from KS X 1001:1998大韓民国、(日本、香港、朝鮮民主主義人民共和国)
U+FA0C - U+FA0DDuplicate characters from Big 5台湾
U+FA0E - U+FA2DThe IBM 32 compatibility ideographs日本、(中華人民共和国)
U+FA2E - U+FA2FKorean compatibility ideographs大韓民国
U+FA30 - U+FA6AJIS X 0213 compatibility ideographs日本
U+FA6B - U+FA6DARIB compatibility ideographs日本
U+FA70 - U+FAD9DPRK compatibility ideographs朝鮮民主主義人民共和国

CJK互換漢字ブロックにあるCJK統合漢字

CJK互換漢字ブロックにCJK統合漢字が12文字ある。

符号位置文字備考
U+FA0E﨎通用日本文字集合
U+FA0F﨏JIS2004拡張漢字集合(第3水準漢字)
U+FA11﨑JIS2004拡張漢字集合(第3水準漢字)
崎(0x8DE8)の異体字
U+FA13﨓JIS2004拡張漢字集合(第4水準漢字)
U+FA14﨔JIS2004拡張漢字集合(第3水準漢字)
欅(0x9F4F)の異体字
U+FA1F﨟JIS2004拡張漢字集合(第3水準漢字)
臈(0xE464)の異体字
U+FA21﨡JIS2004拡張漢字集合(第4水準漢字)
U+FA23﨣通用日本文字集合
重複登録(U+27EAF)
U+FA24﨤JIS2004拡張漢字集合(第4水準漢字)
U+FA27﨧通用日本文字集合
U+FA28﨨通用日本文字集合
U+FA29﨩通用日本文字集合

CJK互換漢字ブロックにある定義誤り

CJK互換漢字ブロックにある定義誤りの文字で削除され、再定義されている。

符号位置文字備考
U+F92C郎U+FA2Eで再定義
U+F9B8隸U+FA2Fで再定義
U+FAD4䀹U+2F949で再定義

日本語処理における問題点

CJK互換漢字はその名前にもかかわらずCJK統合漢字と互換等価ではなく正準等価であり、互いに区別されることを期待してはならない[8]。このため4種類の正規化のいずれを採用してもCJK統合漢字に分解(変換)されてしまい、日本の人名処理などにおいて要求されることのある一部の人名用漢字などの区別が、Unicodeのプレーンテキスト上で保証されるとは限らない。

一部にCJK互換漢字の等価性を正準等価から互換等価に変えるべきであるという主張があるが[9]、UnicodeではJIS X 0213用の互換漢字の一部は新たに収録せず、既存のKS X 1001互換文字用の領域などに収録されていた文字を流用している。このため日本語だけの都合で等価性を変えることはできない。またUnicodeには正規化の安定性の原則があり[10]、その意味でも等価性の変更は現実的ではない。

一方濁点半濁点を合成済みの仮名文字(たとえば「が」)は、仮名文字に合成用濁点・半濁点を続けた文字の組み合わせ(たとえば「か」+「 ゙」)と同一視する需要がある。このため単純に正規化を行わなければ済む問題でもない。

Appleはこのジレンマを解決するため、CJK互換漢字を正規化から除外した新しい正規化形式の追加をUTC(Unicode Technical Committee, Unicode技術委員会)に提案したが、否決された[11]。そこでアップルはCJK互換漢字を含む一部の文字が分解されない独自の正規化形式を定め、自社のオペレーティングシステムに導入している[12]

アドビ日本語組版処理において必要とされる可能性がある字体の区別をCJK互換漢字に頼らずUnicodeのプレーンテキスト上で維持するために、Adobe-Japan1-6の異体字集合をUnicodeの漢字字形データベース (Ideographic Variation Database) に登録申請し[13]2007年12月14日に登録された[14](詳細は異体字セレクタを参照)。


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:68 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef