異体字セレクタ - 暇つぶしWikipedia

異体字セレクタ

異体字セレクタを付けない場合、点のある字体と点のない字体は区別されない。VS(異体字セレクタ)17を付けると点のない字体、VS18を付けると点のある字体を表す。

異体字セレクタ [注 1] [注 2](いたいじセレクタ、英: Variation Selectors) は、Unicode および ISO/IEC 10646 (UCS) における、文字の字体をより詳細に指定するためのセレクタ (選択子) である。
解説

Unicodeでは抽象的な文字を定め、個々の文字の字形の詳細には立ち入らない。このため同じ意味で似た形の文字には同じ電子的な表現が与えられ、字形の区別が必要なときはフォントの指定などによって行うのが原則である [1][注 3]。

この原則は、たとえばラテン文字の 'a' で、上部の右から左へ伸びる線があるかどうか、という違いは通常は「フォントの違い」であり「別の字」とはしないためほとんど問題ない。しかし例えば、CJK統合漢字において、Han unification (en:Han unification) や各国内標準の都合を理由として、運用上しばしば「別の字」とされる字形を、様々な経緯の結果「詳細/デザイン差」として同じ符号位置としてしまっているのは、問題がしばしば発生する (初期のUnicodeが提案された当初から危惧されていた通りに)。そのため、状況によっては、フォントの指定などを含めることができないプレーンテキスト上で字形の区別を保存したいという需要も存在する。.mw-parser-output .jis2004font{font-family:"源ノ角ゴシック JP Normal","源ノ角ゴシック JP","Source Han Sans Normal","Source Han Sans","NotoSansJP-DemiLight","Noto Sans CJK JP DemiLight","ヒラギノ角ゴ ProN W3","ヒラギノ角ゴ ProN","Hiragino Kaku Gothic ProN","メイリオ",Meiryo,"新ゴ Pr6N R","A-OTF 新ゴ Pr6N R","小塚ゴシック Pr6N M","IPAexゴシック","Takaoゴシック","XANO明朝U32","XANO明朝","和田研中丸ゴシック2004絵文字","和田研中丸ゴシック2004ARIB","和田研中丸ゴシック2004P4","和田研細丸ゴシック2004絵文字","和田研細丸ゴシック2004ARIB","和田研細丸ゴシック2004P4","和田研細丸ゴシックProN",YOzFont04,"IPA Pゴシック","Yu Gothic UI","Meiryo UI","ＭＳＰゴシック";font-feature-settings:"jp04"1}葛飾区の葛.mw-parser-output .jis90font{font-family:"Hiragino Kaku Gothic Pro","ヒラギノ角ゴ Pro","ヒラギノ角ゴ Pro W3","A-OTF 新ゴ Pro R","ヒラギノ角ゴ2","ヒラギノ角ゴ3","ヒラギノ角ゴ4","小塚ゴシック Pro R","小塚ゴシック Pro","ＳＨＧ30-P","FC平成角ゴシック体","ＦＡゴシック","IPA モナーゴシック","VL ゴシック","Droid Sans Japanese","ＭＳＰＲゴシック","TGothic-GT01","東風ゴシック","さざなみゴシック","Komatuna","M+1P+IPAG","Mona","ＪＳＰゴシック","AR P丸ゴシック体M","EPSON 丸ゴシック体Ｍ","Osaka","CRPＣ＆Ｇれいしっく","FGP平成明朝体W3","GT2000-01","和田研細丸ゴシック2000P","和田研細丸ゴシック2000P4",YOzFont90,YOzFontN90,"Yu Gothic UI","Meiryo UI";font-variant-east-asian:jis90}葛城市の葛

ほとんどのオペレーティングシステムにおいてファイル名はプレーンテキストであり、プレーンテキストで区別できないものは区別できない。

IMEに単語登録可能な文字列は通常プレーンテキストのみである [2]。このためフォントの指定やDTP アプリケーションによる字形の選択が可能であっても、通常の文字入力とは異なる操作を要求される上に正しい組み合わせを覚えていなければならず、ほとんどの一般利用者にとって現実的な手間で入力できない。たとえばWindows Vistaでは葛飾区 [3]と葛城市 [4]を区別して表示できるが [5][6]、「かつしかく」が飾区、「かつらぎし」が城市のように区別して変換されるような単語登録はできない。ただしegbridgeなど、Mac OS Xのインプットメソッドのうちグリフアクセスプロトコルに対応したものはプレーンテキストの制約に縛られない [7]。

電子メールの送信に使われるSMTPなどの情報交換用プロトコルは、情報交換をプレーンテキストで行うよう設計されている。このため、Mac OS Xのグリフアクセスプロトコルのように内部に閉じたテキスト処理ではプレーンテキストの制約を取り払ったシステムも、メールなどによる外部との情報交換では字形の区別を保存できない [8]。

このような字形の区別にかかわる需要は、Unicodeの漢字統合の規則が国内での運用の実情に沿っていない日本では特に顕著であり、JISの各文字集合 (JIS X 0208、JIS X 0212、JIS X 0213) やUnicodeで満たせない需要に対応するため、官庁では戸籍統一文字や住民基本台帳ネットワーク統一文字など、民間では今昔文字鏡やGTプロジェクトなどといった独自の大規模文字セットが繰り返し作成され、一部で運用されてきた。しかしそれらは独自であるがゆえに、Unicodeを使用している既存の大多数のPC環境と相互運用性がない。

異体字セレクタは以上のような問題をUnicode上で解決するために考案された特殊な「文字」(符号位置が与えられているもの、という意味では「文字」) である。異体字セレクタが利用できる文字は規格で定められており、先行する1文字 (基底文字) の後に規格で定義された異体字セレクタを付けることで異なる字形が選択できる。なお基底文字と異体字セレクタで構成された文字を異体字シーケンス(Variation sequence)とよぶ。異体字セレクタを用いれば、異体字は文字コードとして表現できるため、プレーンテキスト上でも字形の区別をつけることができる。HTMLやCSSなどのWeb標準を管理しているWorld Wide Web Consortiumは、HTMLなどのマークアップ言語においても字形を指定するために異体字セレクタを使うことを想定している [9]。なお異体字セレクタは、付加された文字の字形をより詳細に指定する機能を持つが、異体字セレクタそのものが表示されることはない。
種類

異体字シーケンスには2種類あり、Standardized Variation Sequence (標準化された異体字シーケンス、略称 SVS [注 4]) と、Ideographic Variation Sequence (漢字異体字シーケンス、略称 IVS) がある。

SVSは非漢字やCJK互換漢字などで利用され、その字形コレクションはUnicodeのStandardized Variants [10]にて定義されている。Standardized Variantsへの字形の追加は、ユニコードコンソーシアムが行なっている。

一方、IVSは漢字専用で、字形コレクションは Ideographic Variation Database (漢字異体字データベース、略称 IVD) にて定義されている。IVDへ字形コレクションを登録するには、定められた手続きに則ってユニコードコンソーシアムへ申請を行う必要がある [11]。

2017年12月現在、異体字セレクタにより利用できる異体字は、以下のとおりである。

Standardized Variantsに登録されている字形コレクションとその数

数学記号：25通り

ミャンマーのビルマ文字：27通り

パスパ文字：6通り

マニ文字：5通り

モンゴル文字：60通り

CJK互換漢字に対応するもの：1,002通り

絵文字：702通り (テキストスタイルと絵文字スタイルが351通りずつ) [12]

IVD (2017-12-12版) に登録されている字形コレクションとその数

Adobe-Japan1コレクション：14,683通り [注 5]

汎用電子情報交換環境整備プログラムのHanyo-Denshiコレクション：13,045通り

文字情報基盤整備事業のMoji_Johoコレクション：11,384通り

マカオ特別行政区のMSARGコレクション：21通り

韓国のKRNameコレクション：36通り

ただしHanyo-Denshiには、Adobe-Japan1と多数の重複がある (後述の#問題点も参照)[13]。Hanyo-DenshiとMoji_Johoでは同一の字形は異体字セレクタを共有している。Adobe-Japan1では、文字セットのAdobe-Japan1-6に含まれる漢字であれば「一」(U+4E00) のように単一の字形しか存在しないものでもその単一の字形が登録されている。Hanyo-Denshiでは、Adobe-Japan1とは異なり同一符号位置で複数の字形を持つもののみ登録されており、単一の字形しか存在しないものは登録されていない。
符号位置

異体字セレクタとして以下のものが定義されている。

モンゴル文字専用のモンゴル自由字形選択子 (英: Mongolian Free Variation Selector、略称 FVS) ：U+180B?U+180D (3個)

SVSで利用される異体字セレクタ：U+FE00?U+FE0F (VS1?VS16) (16個) (基本多言語面 (BMP) に定義)

IVSで利用される異体字セレクタ：U+E0100?U+E01EF (VS17?VS256) (240個) (追加特殊用途面 (SSP) に定義)

異体字セレクタとそれが付加される文字との組み合わせ、および指定される字形は規格で定められており、それ以外の組み合わせは無視される。

Size:94 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef