用字_(Unicode)

[Wikipedia|▼Menu]

Unicode
文字符号化スキーム
 UTF-7
UTF-8
CESU-8
UTF-16
UTF-32
UTF-EBCDIC
SCSU
Punycode (IDN/IDNA)
GB 18030
その他
UCS
マッピング
 書字方向
 BOM
漢字統合
UnicodeとHTML
Unicodeと電子メール
Unicodeフォント
 アルメニア文字

Unicodeにおける用字（ようじ）[1]またはスクリプト（英語: script）とは、1つ以上の書記体系でテキスト情報を表すために使用される文字その他の表記記号の集合である [2]。用字の中には、1つの表記体系と言語でしか使用されないものもある（アルメニア語でしか使用されないアルメニア文字など）が、様々な表記体系で使用されるものもある。例えば、ラテン文字は、英語、フランス語、ドイツ語、イタリア語、ベトナム語、ラテン語、その他多くの言語で使用される。いくつかの言語は、複数の代替表記体系を利用するため、いくつかの用字も使用する。トルコ語（オスマン語）では、20世紀以前にはアラビア文字が使用されていたが、20世紀初頭にラテン文字に移行した。各用字を使用する言語の一覧については、文字体系別の言語の一覧を参照のこと。用字を補完するものとして、記号（英語版）とUnicode制御文字がある。統合発音区別符号や統合句読文字は、"common"（共通）や"inherited"（継承）の用字属性を持つことがよくある。しかし、個々の用字もそれ自身の句読文字や発音区別符号を持っているので、多くの用字は文字だけでなく発音区別符号やその他の記号、句読点、数字、その用字に固有の記号やスペース文字を含んでいる。

Unicode 13.0では、現代の用字91種と古代の・歴史的な用字63種の合計154種の用字が定義されている [3][4]。その他にも、文字コードの割り当て待ちや、割り当ての予定のある用字が多数ある [5]。目次

 1 定義と分類

 1.1 用字と表記体系

 1.2 特別な用字属性値

 2 用字内の文字のカテゴリ

 3 関連項目

 4 脚注

 定義と分類

複数の言語が同じ用字を使用する場合、特に発音区別符号やその他の記号など、そこにはいくつかの違いがある。例えば、スウェーデン語と英語はどちらもラテン文字を使用している。しかし、スウェーデン語には‘a’という文字（Swedish O（スウェーデン語O）と呼ばれることもある）が含まれるが、英語にはそのような文字は存在しない。英語では、上付きのリングの発音区別符号はいかなる文字に対しても使用しない。一般に、同じ用字を共有する言語は、多数の同じ文字を共有する。スウェーデン語と英語の表記体系において、前述のようなわずかな違いはあるにもかかわらず、それらは同じラテン文字を使用すると言うことができる。従って、Unicodeにおける用字の抽象化は基本的な編成手法である。異なるアルファベットや表記体系の間の差異は、マークと照合アルゴリズムを組み合わせたUnicodeの柔軟な用字を通じて、維持されサポートされている。
用字と表記体系

表記体系（英語版）(writing system)という用語は、用字(script)の同義語として扱われることがある。ただし、この用語は、用字が対応している特定の具体的な表記体系のことを指す用語としても使用される。例えば、ベトナム語の表記体系はラテン文字が対応している。表記体系は、複数の文字をカバーすることもある。例えば、日本語の表記体系は、漢字、平仮名、片仮名の用字を使用する。

ほとんどの表記体系は、表語文字(logographic)、音節文字(syllabic)、アルファベット(alphabetic)（または音素文字(segmental)）、アブギダ(abugida)、アブジャド(abjad)、素性文字(featural)のカテゴリーに大別することができる。しかし、表記体系には上記に挙げた分類のうちの複数の要素を持っているため、純粋に体系を分類することが困難なことがよくある。

Unicodeは、その数多くの用字を通じて、これら全ての種類の表記体系に対応している。Unicodeでは、様々な文字とUnicode文書処理アルゴリズム内での動作の違いを区別するために、文字にさらに属性（プロパティ）を追加している。

特別な用字属性値

明示的または特定の用字属性のほか、Unicodeには以下の3つの特別な用字属性値がある [6]。
Common（共通）
Unicodeは、国際符号化文字集合(UCS)内の特定の文字を1つの用字にのみ割り当てることができる。しかし、多くの文字（正式な自然言語の表記体系の一部ではない、あるいは多くの表記体系にわたって統一されているもの）は、複数の用字で使用されることがある。通貨記号、記号、数字、句読点などがそうである。このような場合に、Unicodeではそれらを用字"Common"（ISO 15924コード "Zyyy"）に属するものとして定義している。
Inherited（継承）
発音区別符号や非スペース結合文字の多くは、複数の用字内の文字に適用できる。このような場合、Unicodeではそれらを用字"inherited"（ISO 15924コード"Zinh"）に割り当てる。

Size:15 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef