JIS_X_0208 - 暇つぶしWikipedia

JIS_X_0208

出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。記事の信頼性向上にご協力をお願いいたします。（2023年11月）
.mw-parser-output .hatnote{margin:0.5em 0;padding:3px 2em;background-color:transparent;border-bottom:1px solid #a2a9b1;font-size:90%}

ウィキペディアにおける日本語表記については、「Wikipedia:表記ガイド」をご覧ください。
オイラー図（JIS X 0208、JIS X 0212、JIS X 0213等の漢字集合）

JIS X 0208は、日本語表記、地名、人名などで用いられる6,879図形文字を含む、主として情報交換用の2バイト符号化文字集合を規定する日本産業規格 (JIS) である。現行の規格名称は7ビット及び8ビットの2バイト情報交換用符号化漢字集合 (7-bit and 8-bit double byte coded KANJI sets for information interchange) である。1978年にJIS C 6226として制定され、1983年、1990年および1997年に改正された。JIS漢字コード、JIS漢字、JIS第1第2水準漢字、JIS基本漢字などの通称がある。
適用範囲および適合性

JIS X 0208が定める文字集合は、主として、データ処理システムおよび関連する装置の間またはデータ通信システム相互の間の情報交換 (information interchange) に用いるための文字集合である。この文字集合はデータ処理および文書処理にも利用できる。

文字集合の部分実装は規格に適合しない。第1次規格の原案作成委員会が第1水準および第2水準への振り分けに気をつかったこと、第2次規格で一部の異体字の水準間の入れかえがおこなわれたことなどからすると、少なくとも第1次規格および第2次規格では、非漢字および第1水準漢字のみの実装が想定されたと推測される。しかし、このような実装が規格に適合すると明記されたことはない。

かつてはJIS X 0208:1997の規格票には適合性について規定されているにもかかわらず、この規格は適合性認証または自己適合宣言の対象となる製品規格ではないと考えられていた [注釈 1]。だが2009年現在では経済産業省およびJISCが「国がJISマーク表示制度の対象となる商品等を限定する指定商品制を廃止し、認証可能なJIS製品規格がある製品が対象となります」と明言している [1][2]ため、適合性について規定のあるJIS X 0208:1997も適合性認証または自己適合宣言の対象となると考えられる。
符号の構造

JIS X 0208の符号は、基本的に7ビット2バイト符号または8ビット2バイト符号である。ただし、図形文字 (graphic character) のうちの1文字「SPACE」およびすべての制御文字 (control character) は1バイトで表現される。符号位置を表現するために、「列番号/行番号」および「区点番号」が使用される。符号に依存しない文字の識別手段として「文字の名前」が用意されている。
列番号/行番号

1バイト符号のビット組合せ (bit combination) を表現するために、列番号/行番号が用いられる。これは1バイトの16進数表記（00からFF）の上の桁と下の桁に相当する。具体的には、7ビットの上位3ビットまたは8ビットの上位4ビットを十進整数の0から7または0から15に対応させて、この数字を列番号とし、下位4ビットを十進整数の0から15に対応させて、この数字を行番号とする。

例えば、図形文字SPACEに対応するビット組合せは、7ビット符号で010 0000、8ビット符号で0010 0000である。これは、列番号/行番号によって2/0と表現される。
区点位置および区点番号

2バイト符号のうち、2バイトの第1バイトを同じくする符号の集合を、区 (row) といい、一つの区のうちの個々の符号を、点 (cell) という [注釈 2]。ある区のある点のことを、区点位置 (code-point) と呼ぶ。

2バイトの第1バイトおよび第2バイトには、それぞれ、列番号/行番号で表示して2/1から7/14までの94通りのビット組合せが許される。したがって、区は94個あり、一つの区には、94個の点がある。区点位置は94×94=8,836個ある。

区点位置は区点番号によって参照される。それぞれの区に1から94までの番号を与え、それぞれの区のうちの点に1から94までの番号を与える。そして、区点番号を、区の番号と点の番号によって「何区何点」と表現するか、区の番号と点の番号をハイフンでつないで表現する。例えば、文字「亜」の区点位置は、区点番号によって16区1点または16-01と参照される。

区点番号と図形文字との対応は、規格の付属書3において、区の番号を縦軸に、点の番号を横軸に取った94×94の図形文字符号表で示されている。

この構造は、中国のGB 2312や韓国のKS C 5601（現在のKS X 1001）でも採用された。
空き領域

2バイト符号のうち、9区から15区までおよび85区から94区までは空き領域 (unassigned code-points)、すなわち文字が規定されていない区点位置である。それ以外の区のうちでも一部の点は空き領域となっている。

空き領域は基本的に使用してはならない区点位置である。情報交換の当事者の合意があるときを除き、空き領域に文字（外字）を割り当てて情報交換をしてはならない。

空き領域に文字を割り当てるときにも、規格に定められた図形文字を空き領域にも割り当てたり、空き領域の複数の区点位置に同じ文字を割り当てたりしてはならない。重複符号化を排除するためである。

なお、空き領域に文字を割り当てるときには、漢字の字体についての包摂規準に注意する必要がある。例えば、25区66点には「口高」および「はしご高」が包摂されて対応している。したがって、25区66点の文字を「口高」に限定して解釈し、「はしご高」を空き領域に割り当てることは、規格に定められた図形文字を空き領域にも割り当てることになり、規格違反となる。
文字の名前

この規格の符号化文字には、それぞれの名前が与えられている。文字の名前を使うことによって、符号に依存しないで文字を識別することができる。文字の名前は他の符号化文字集合の規格と整合して決められているので、ある符号化文字集合に含まれるある文字が、別の符号化文字集合に含まれるある文字と同一の文字であるか否かは、それらの名前が同一であるか否かで判断できる。

例えば、ISO/IEC 646の列番号/行番号で4/1の文字の名前も、この規格の3区33点の文字の名前も、同じくLATIN CAPITAL LETTER Aである。したがって、ISO/IEC 646の4/1の文字およびこの規格の3区33点の文字は、同じ文字であると結論できる。またISO/IEC 646国際基準版の2/2「QUOTATION MARK」、2/7「APOSTROPHE」、2/13「HYPHEN-MINUS」および7/14「TILDE」は、この規格にはない文字であることがわかる。

漢字以外の文字の名前に用いられる文字は、ラテン文字大文字、間隔およびハイフンである。漢字以外の文字には日本語通用名称も与えられているが、日本語通用名称は参考であって規定の一部ではない [注釈 3]。

漢字の名前は、対応する国際符号化文字集合 (UCS) の文字の16進表記の符号化表現から機械的に決められている。符号化表現の先頭に「CJK UNIFIED IDEOGRAPH-」を冠することで、漢字の名前が得られる。例えば、16区1点「亜」はUCSの4E9Cの文字に対応するので、この文字の名前はCJK UNIFIED IDEOGRAPH-4E9Cである。漢字には日本語通用名称は与えられていない。
漢字集合
 概要

JIS X 0208が規定する、7ビット2バイトまたは8ビット2バイトの符号に対応する6,879の図形文字の集合を、JIS X 0208では漢字集合 (Kanji set) と呼ぶ。漢字集合には、漢字6,355文字およびラテン文字、平仮名などの524文字の非漢字が含まれる。漢字集合に含まれる図形文字およびそれが収められる区は、つぎのとおりである。
特殊文字
1区および2区に収められる。和字間隔1文字、読点、句点などの記述記号18文字、濁点、半濁点などのダイアクリティカルマーク8文字、「々」、「〆」などの仮名又は漢字に準じるもの10文字、括弧記号22文字、数学記号である学術記号45文字、通貨記号を含む単位記号11文字、「#」、「〒」などの一般記号32文字からなる合計147文字である。
数字
3区に収められる。「0」から「9」までの10文字である。
ラテン文字
3区に収められる。大文字および小文字の52文字である。
平仮名
4区に収められる。「ゐ」および「ゑ」を含む清音48文字、濁音20文字、半濁音5文字、拗音および促音のための小文字10文字、の合計83文字である。
片仮名
5区に収められる。86文字である。平仮名に対応する文字に加えて、「ヵ」、「ヶ」および「ヴ」が含まれる。
ギリシア文字
6区に収められる。大文字および小文字の48文字である。
キリル文字
7区に収められる。大文字および小文字の66文字である。
罫線素片
8区に収められる。細線素片、太線素片および細線太線混在素片からなる32文字である。
漢字
16区から47区までの第1水準2,965文字および48区から84区までの第2水準3,390文字の合計6,355文字である。
特殊文字、数字およびラテン文字

漢字集合の特殊文字には、ISO/IEC 646の国際基準版 (IRV) 図形文字集合に含まれる一部の文字が欠けている。前述のQUOTATION MARK、APOSTROPHE、HYPHEN-MINUSおよびTILDEの4文字である。IRVのQUOTATION MARK、APOSTROPHEおよびHYPHEN-MINUSは、表のように、漢字集合では複数の区点位置に分離されている（西村 1978、JIS X 0221-1:2001規格票解説3.8.7）。IRVのTILDEは、漢字集合のどの文字とも対応づけられない。

ISO/IEC 646 IRVおよびJIS X 0208の一対多対応ならびにISO/IEC 646 IRVのTILDEおよびJIS X 0208のWAVE DASH。「図形」の欄の図形記号は、UCS/Unicodeの符号位置の文字を利用者の環境のフォントで表示したものである。ISO/IEC 646 IRVJIS X 0208
列/行図形名前区点図形名前
2/2"QUOTATION MARK1-15¨DIAERESIS
1-40“LEFT DOUBLE QUOTATION MARK
1-41”RIGHT DOUBLE QUOTATION MARK
1-77″DOUBLE PRIME
2/7'APOSTROPHE1-13´ACUTE ACCENT
1-38‘LEFT SINGLE QUOTATION MARK
1-39’RIGHT SINGLE QUOTATION MARK
1-76′PRIME

Size:79 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef