この項目では、文字集合における外字について説明しています。その他の用法については「外字 (曖昧さ回避)」をご覧ください。
外字(がいじ)とは、特定の文字集合(文字コードなど)に含まれない文字のことをいう。日本で一般には、JIS規格の文字コード(通常はJIS X 0208、稀にJIS X 0213やJIS X 0221)に含まれない文字のことをさし、「表外字」、「拡張漢字(ベンダ選定拡張漢字)」とも呼ばれる。常用漢字に含まれない文字のことを外字ということもある。 文字コードによるテキストデータの流通という意味では、外字の使用は好ましくない。一つの文字コードが異なるシステム間で同じ文字イメージであることが保証されないためである。 文字情報基盤事業などの成果として外字を使用しなくてよいように異体字セレクタを利用したUnicode IVD/IVSで定義された文字への包括が推進されている。文字情報基盤事業では、日本政府の戸籍/住民票業務で必要となる文字を整理して包括させた結果として戸籍統一文字と住基統一文字をとりまとめ、それらをまとめて文字情報基盤として文字セットを定義した。この文字情報基盤の文字を中心としてUnicode IVD/IVSで扱えるように文字コードが定義されている。日本政府では、行政のIT化のために戸籍/住民票業務を中心とした公文書で使える異体字を文字情報基盤で定義したものに包括して限定していく方針である。MicrosoftもWindowsでの外字のサポートを縮小し、Unicode IVD/IVSによる異体字の利用を推進している。
外字の弊害
IPA文字情報基盤整備事業
一般社団法人文字情報技術促進協議会
PC98シリーズなどでは、JIS X 0201の文字以外に記号などが個別に定義されていた。これらは98文字
などと呼ばれ、外字の一種である。1979年にJIS X 0208に含まれない文字を使用するために、未定義領域
と呼ばれるエリアに独自の文字を作成する手段がとられていた。メーカなどがシステムにあらかじめ組み込んでいた外字をシステム外字やベンダ定義文字と呼び、個々のユーザが作成した外字はユーザ外字やユーザ定義文字と呼ぶ。
ワードプロセッサなどでも、外字の作成が可能な製品も多数存在した。Microsoft Windowsの場合は、標準で附属する外字エディタというアプリケーションでユーザ外字が作成可能である。
一般にはShift_JISにおける0xF000?0xFFFCの領域がユーザ外字領域として広く用いられてきた(以下「JIS X 0221 (Unicode)における外字」に詳細)。
このユーザ外字領域にあらかじめ各種の文字を入れておいたフォントなどもあり、外字領域の文字しか含まれないフォントのことを外字フォントと呼ぶ。
JIS X 0208の1997年における改訂でこの未定義領域に外字を入れることが原則禁止された。 2000年に規格化されたJIS X 0213では、Shift_JIS-2004(Shift_JISX0213)というShift_JISの符号化表現を拡張した規格が定義された。この文字コードでは、実装水準3(第3水準の文字までしか含まない)で実装する場合には、0xF000?0xFFFCの領域を外字領域として使用してよいこととした。 Unicodeでは、外字エリアとして「私用領域」という名称でU+E000?U+F8FF、U+F0000?U+FFFFD、U+100000?U+10FFFDに外字領域を設けてある。このうち、あとの2つは面単位で用意されているので、私用面と呼ばれる。 Windowsのユーザ外字領域であるShift_JISの0xF040?0xF9FCはUnicodeのU+E000?U+E757に順番に対応付けられている。(Shift_JISのコードポイントでない0xF07Fなどは飛ばす。) Windows付属の外字エディタではU+E758?U+F8FFにも外字を作成可能であるが、そこに作成したものはWindowsにおけるUnicode環境でのみ使用可能となる。 Windowsのシンボルフォント 日本におけるFM文字多重放送や字幕放送などで使用する文字ARIB外字や携帯電話の絵文字などこれまでは外字でしか使用できなかった文字についても、企業ロゴ等を除いて順次Unicodeに含めることが進められている。 ユーザ外字領域(Shift_JIS)私用領域(Unicode)文字数 日本のデータ放送、文字放送、字幕放送などではDRCS外字 ワープロ専用機やワープロソフト、Windows などのオペレーティングシステムでは、ユーザが自分で外字(ユーザー定義外字)を登録できるようになっている。 常用漢字表に含まれない文字のことを表外字と呼ぶ。平成12年に表外漢字字体表を国語審議会が発表し、常用漢字に含まれない漢字の字形のよりどころを規定した。 人名を扱うシステムにおいて人名用外字が使われていた。日本の人名に使われる文字 (漢字や変体仮名など) は住基ネット統一文字や戸籍統一文字の中に殆ど含まれており、これらの文字はユニコードコンソーシアムやISOでの標準化が行われ、2017年6月のUnicode 10.0及び2017年12月のISO/IEC 10646:2017でほぼ全てが収録されるに至った。これらの文字に対応するフォントには、IPAmj明朝や花園明朝が存在する。 中国語を表記できないシステムにおいて、中国や韓国の人名・地名を表記するために多くの外字が使われてきたが、現在はUnicode及び中国語フォントが普及したため外字の使用も減っている。また、日本語と中国語の両方に対応する多言語フォントも登場している (源ノ角ゴシック、源ノ明朝、Notoフォント、ヒラギノ角ゴ、UD新ゴ、金剛黒体 その他、民生向け人名外字フォントには、DynaFont 人名記号外字 (DynaComware)、筆まめ人名外字 (SOURCENEXT)、人名外字1500/人名外字PRO (イースト)、Super名字太郎 (ビープラス)などが存在する。 日本では法務省が漢字圏の氏名の表記のために入管正字を定めているが、入管正字にはかつてUnicodeに含まれない文字も含まれていた。しかし、Unicode 10.0でCJK統合漢字拡張Fが追加され、入管正字の全ての文字が収録されるに至った。 入管正字に置き換える元の漢字(簡体字等)の一部はUnicodeに収録されていないため入管外字 JIS X 0208の外字として使用された文字集合の一部は、標準化されたりデファクトスタンダードになった外字集合がある。
JIS X 0213における外字
JIS X 0221 (Unicode)における外字
0xF040 - 0xF07EU+E000 - U+E03E63文字
0xF080 - 0xF0FCU+E03F - U+E0BB125文字
0xF140 - 0xF17EU+E0BC - U+E0FA63文字
0xF180 - 0xF1FCU+E0FB - U+E177125文字
0xF240 - 0xF27EU+E178 - U+E1B663文字
0xF280 - 0xF2FCU+E1B7 - U+E233125文字
0xF340 - 0xF37EU+E234 - U+E27263文字
0xF380 - 0xF3FCU+E273 - U+E2EF125文字
0xF440 - 0xF47EU+E2F0 - U+E32E63文字
0xF480 - 0xF4FCU+E32F - U+E3AB125文字
0xF540 - 0xF57EU+E3AC - U+E3EA63文字
0xF580 - 0xF5FCU+E3EB - U+E467125文字
0xF640 - 0xF67EU+E468 - U+E4A663文字
0xF680 - 0xF6FCU+E4A7 - U+E523125文字
0xF740 - 0xF77EU+E524 - U+E56263文字
0xF780 - 0xF7FCU+E563 - U+E5DF125文字
0xF840 - 0xF87EU+E5E0 - U+E61E63文字
0xF880 - 0xF8FCU+E61F - U+E69B125文字
0xF940 - 0xF97EU+E69C - U+E6DA63文字
0xF980 - 0xF9FCU+E6DB - U+E757125文字
対応なしU+E758 - U+F8FF4,520文字
対応なしU+000F0000 - U+000FFFFD65,534文字
対応なしU+00100000 - U+0010FFFD65,534文字
DRCS外字
外字登録
常用漢字表外字
人名・地名用外字
入管正字・入管外字
グリフの確認はグリフウィキの入管外字の一覧を参照(一部未実装)。 ⇒グループ:平成23年12月26日法務省告示第582号別表第二 - GlyphWiki
入管外字(e400 ? f8ff)と入管正字の対応は出入国在留管理庁正字検索システムのドキュメントを参照(ただし、入管外字以外にもCJK互換漢字と入管正字の対応なども記載あり)。 ⇒出入国在留管理庁正字検索システム 検索対象外文字のうち文字コード検索可能な一覧
登記用外字で構成される。登記統一文字番号の8桁で管理する。[1]
戸籍統一文字の登記統一文字番号は、戸籍統一文字コード(6桁)の先頭に00を追加して8桁に拡張する。
登記固有文字の登記統一文字番号は、先頭01で始まる8桁の番号とする。
例えば、法人番号公表サイトでは外字管理として使われている。[2]
登記統一文字番号に対するグリフは、グリフウィキの登記統一文字の一覧を参照。 グループ:登記統一文字の一覧
著名な外字集合
ARIB外字
社団法人電波産業会によりデータ放送などでの使用を規定した外字集合。多くの文字はUnicodeに収録されたが、モザイク集合などの一部の文字は収録されていない。
Size:35 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)』
担当:undef