異体字セレクタを付けない場合、点のある字体と点のない字体は区別されない。VS(異体字セレクタ)17を付けると点のない字体、VS18を付けると点のある字体を表す。
異体字セレクタ[注 1] [注 2](いたいじセレクタ、英: Variation Selectors) は、Unicode および ISO/IEC 10646 (UCS) における、文字の字体をより詳細に指定するためのセレクタ (選択子) である。 Unicodeでは抽象的な文字を定め、個々の文字の字形の詳細には立ち入らない。このため同じ意味で似た形の文字には同じ電子的な表現が与えられ、字形の区別が必要なときはフォントの指定などによって行うのが原則である[1][注 3]。 この原則は、たとえばラテン文字の 'a' で、上部の右から左へ伸びる線があるかどうか、という違いは通常は「フォントの違い」であり「別の字」とはしないためほとんど問題ない。しかし例えば、CJK統合漢字において、Han unification (en:Han unification
解説
ほとんどのオペレーティングシステムにおいてファイル名はプレーンテキストであり、プレーンテキストで区別できないものは区別できない。
IMEに単語登録可能な文字列は通常プレーンテキストのみである[2]。このためフォントの指定やDTPアプリケーションによる字形の選択が可能であっても、通常の文字入力とは異なる操作を要求される上に正しい組み合わせを覚えていなければならず、ほとんどの一般利用者にとって現実的な手間で入力できない。たとえばWindows Vistaでは葛飾区[3]と葛城市[4]を区別して表示できるが[5][6]、「かつしかく」が飾区、「かつらぎし」が城市のように区別して変換されるような単語登録はできない。ただしegbridgeなど、Mac OS Xのインプットメソッドのうちグリフアクセスプロトコル
このような字形の区別にかかわる需要は、Unicodeの漢字統合の規則が国内での運用の実情に沿っていない日本では特に顕著であり、JISの各文字集合 (JIS X 0208、JIS X 0212、JIS X 0213) やUnicodeで満たせない需要に対応するため、官庁では戸籍統一文字や住民基本台帳ネットワーク統一文字など、民間では今昔文字鏡やGTプロジェクトなどといった独自の大規模文字セットが繰り返し作成され、一部で運用されてきた。しかしそれらは独自であるがゆえに、Unicodeを使用している既存の大多数のPC環境と相互運用性がない。
異体字セレクタは以上のような問題をUnicode上で解決するために考案された特殊な「文字」(符号位置が与えられているもの、という意味では「文字」) である。異体字セレクタが利用できる文字は規格で定められており、先行する1文字 (基底文字) の後に規格で定義された異体字セレクタを付けることで異なる字形が選択できる。なお基底文字と異体字セレクタで構成された文字を異体字シーケンス(Variation sequence)とよぶ。異体字セレクタを用いれば、異体字は文字コードとして表現できるため、プレーンテキスト上でも字形の区別をつけることができる。HTMLやCSSなどのWeb標準を管理しているWorld Wide Web Consortiumは、HTMLなどのマークアップ言語においても字形を指定するために異体字セレクタを使うことを想定している[9]。なお異体字セレクタは、付加された文字の字形をより詳細に指定する機能を持つが、異体字セレクタそのものが表示されることはない。 異体字シーケンスには2種類あり、Standardized Variation Sequence (標準化された異体字シーケンス、略称 SVS[注 4]) と、Ideographic Variation Sequence (漢字異体字シーケンス、略称 IVS) がある。 SVSは非漢字やCJK互換漢字などで利用され、その字形コレクションはUnicodeのStandardized Variants[10]にて定義されている。Standardized Variantsへの字形の追加は、ユニコードコンソーシアムが行なっている。 一方、IVSは漢字専用で、字形コレクションは Ideographic Variation Database (漢字異体字データベース、略称 IVD) にて定義されている。IVDへ字形コレクションを登録するには、定められた手続きに則ってユニコードコンソーシアムへ申請を行う必要がある[11]。 2017年12月現在、異体字セレクタにより利用できる異体字は、以下のとおりである。 Standardized Variantsに登録されている字形コレクションとその数 IVD (2017-12-12版) に登録されている字形コレクションとその数 ただしHanyo-Denshiには、Adobe-Japan1と多数の重複がある (後述の#問題点も参照)[13]。Hanyo-DenshiとMoji_Johoでは同一の字形は異体字セレクタを共有している。Adobe-Japan1では、文字セットのAdobe-Japan1-6に含まれる漢字であれば「一」(U+4E00) のように単一の字形しか存在しないものでもその単一の字形が登録されている。Hanyo-Denshiでは、Adobe-Japan1とは異なり同一符号位置で複数の字形を持つもののみ登録されており、単一の字形しか存在しないものは登録されていない。 異体字セレクタとして以下のものが定義されている。 異体字セレクタとそれが付加される文字との組み合わせ、および指定される字形は規格で定められており、それ以外の組み合わせは無視される。
種類
数学記号:25通り
ミャンマーのビルマ文字:27通り
パスパ文字:6通り
マニ文字:5通り
モンゴル文字:60通り
CJK互換漢字に対応するもの:1,002通り
絵文字:702通り (テキストスタイルと絵文字スタイルが351通りずつ) [12]
Adobe-Japan1コレクション:14,683通り[注 5]
汎用電子情報交換環境整備プログラムのHanyo-Denshiコレクション:13,045通り
文字情報基盤整備事業のMoji_Johoコレクション:11,384通り
マカオ特別行政区のMSARGコレクション:21通り
韓国のKRNameコレクション:36通り
符号位置
モンゴル文字専用のモンゴル自由字形選択子 (英: Mongolian Free Variation Selector、略称 FVS) :U+180B?U+180D (3個)
SVSで利用される異体字セレクタ:U+FE00?U+FE0F (VS1?VS16) (16個) (基本多言語面 (BMP) に定義)
IVSで利用される異体字セレクタ:U+E0100?U+E01EF (VS17?VS256) (240個) (追加特殊用途面 (SSP) に定義)