ISO/IEC_2022
[Wikipedia|▼Menu]
□記事を途中から表示しています
[最初から表示]

b  GL領域に94文字集合が呼び出されているときは SPACE (空白文字) となる。

c  GL領域に94文字集合が呼び出されているときは DELETE 制御文字となる。

d  7ビット符号では、C1制御文字は実際には使用しない。代替のエスケープシーケンスで表す。

e  GR領域に94文字集合が呼び出されているときは、この2つの行列は使用しない。

制御機能

表2 ISO/IEC 2022 の制御機能 (抜粋)制御文字またはエスケープシーケンス説明略号

指示
01/11 02/01 I FtC0への制御機能集合の指示 (呼び出しを含む)CZD
01/11 02/02 I FtC1への制御機能集合の指示 (呼び出しを含む)C1D
01/11 02/08 I FtG0への94文字集合の指示GZD4
01/11 02/09 I FtG1への94文字集合の指示G1D4
01/11 02/10 I FtG2への94文字集合の指示G2D4
01/11 02/11 I FtG3への94文字集合の指示G3D4
01/11 02/13 I FtG1への96文字集合の指示G1D6
01/11 02/14 I FtG2への96文字集合の指示G2D6
01/11 02/15 I FtG3への96文字集合の指示G3D6
01/11 02/04 02/08 Ft
[a]G0への94n文字集合の指示GZDM4
01/11 02/04 02/09 FtG1への94n文字集合の指示G1DM4
01/11 02/04 02/10 FtG2への94n文字集合の指示G2DM4
01/11 02/04 02/11 FtG3への94n文字集合の指示G3DM4
01/11 02/04 02/13 FtG1への96n文字集合の指示G1DM6
01/11 02/04 02/14 FtG2への96n文字集合の指示G2DM6
01/11 02/04 02/15 FtG3への96n文字集合の指示G3DM6
01/11 02/05 I Ft他の符号化システムの指示DOCS
01/11 02/06 F[b]文字集合の改訂番号の識別IRR

呼び出し (シフト)
00/15GL領域へのG0の呼び出し[c]SI
00/15GL領域へのG0の呼び出し[d]LS0
00/14GL領域へのG1の呼び出し[c]SO
00/14GL領域へのG1の呼び出し[d]LS1
01/11 06/14GL領域へのG2の呼び出しLS2
01/11 06/15GL領域へのG3の呼び出しLS3
01/11 07/14GR領域へのG1の呼び出し[d]LS1R
01/11 07/13GR領域へのG2の呼び出し[d]LS2R
01/11 07/12GR領域へのG3の呼び出し[d]LS3R
01/11 04/14
または
08/14GL領域またはGR領域へのG2の1文字限りの呼び出し[e] (シングルシフト)SS2
01/11 04/15
または
08/15GL領域またはGR領域へのG3の1文字限りの呼び出し[e] (シングルシフト)SS3

アナウンス
01/11 02/00 F[f]アナウンス機能ACS

JIS X 0202:1998 および JIS X 0211-1994 を元に作成。

符号表上の文字の位置を行と列で示す。たとえば 01/11 (ESCAPE) は16進数値では 1B にあたる。また、Ft または I Ft は、ISOの文字集合国際登録簿への登録によって割り当てられたエスケープシーケンスの終端バイト (および第2中間バイト) を表す。

a  ただし、Ftバイト が 04/00、04/01、04/02 の場合は 02/08 を省略する。これは具体的には、JISC C 6226-1978 (JIS X 0208 の第一次規格)、GB 2312-80、JIS C 6226-1983 (同第二次規格) の文字集合を指示する場合である。

b  Fバイトで、直後の指示機能で指示される文字集合の改訂番号を識別する。

c  7ビット符号でのみ用いる。

d  8ビット符号でのみ用いる。

e  7ビット符号ではエスケープシーケンスを使う。8ビット符号ではC1制御文字を使うこともできる。

f  Fバイトによって、利用する機能を指定する。

複数の文字集合を表現するために、ISO/IEC 2022の文字符号化方式は、符号の性質や扱う文字集合を指定するための制御機能を含んでいる。制御機能の表現には、7ビット符号ではC0制御文字のほか、ESCAPE制御文字(01/11。十六進数の1B、十進数の27)で始まる2バイトないし4バイトからなるエスケープシーケンスを用いる[6]。8ビット符号ではさらに、C1 制御文字も用いる。この文字符号化方式では、データの正しい解釈が最後に出現した制御機能に依存するため、データを先頭から順番に処理する必要がある。#表2に、ISO/IEC 2022 の制御機能の一部を示す。
文字集合の選択

ある文字集合を符号表上で使うには、一般に指示 (英: designate) と呼び出し (英: invoke) という2段階の手続きを必要とする。

ISO/IEC 2022 は、符号表上の4つの領域C0、GL、C1、GRとは別に、仮想的なバッファをもっている。G0、G1、G2、G3という4つのバッファがある。

まず、指示のエスケープシーケンスによって、使おうとしている文字集合を、4つのバッファのいずれかに対応付ける。

指示のエスケープシーケンスは、どの文字集合を使おうとしているか宣言するのみならず、これらの文字集合の特性をも知らせる。扱おうとしている文字集合が94文字、96文字、8836(94×94)文字、830584(94×94×94)文字、もしくは他のサイズのいずれであるかを伝える。指示していない文字集合を使うことはできない。また、5つ以上の文字集合を一度に指示しておくこともできない。

つぎに、呼び出し (シフト) の制御機能によって、G0、G1、G2、G3のいずれかを、符号表上のGL領域かGR領域に対応付ける。指示した文字集合を呼び出ししてはじめて、その文字集合を符号として使うことができるようになる。7ビット符号では2つ以上、8ビット符号では3つ以上のバッファを一度に呼び出しておくことはできない。

呼び出しには、ロッキングシフトとシングルシフトがある。ロッキングシフトでは、いったん呼び出しされたものは、別の呼び出しがあるまで使いつづけることができる[7]。シングルシフトでは、呼び出しされたものは直後の1文字 (シングルバイトの文字集合であれば1バイト、マルチバイトの文字集合であればそれぞれのバイト数分) だけ使え、そのあとは呼び出し前の状態に戻る[8]

実際には、文脈や規約が特定の文字集合を使うよう指定していれば、符号化の仕様を指定する制御機能 (アナウンス機能) や初期の文字集合を指示する制御機能は省略することができる。ISO-2022-CNを定義している.mw-parser-output cite.citation{font-style:inherit;word-wrap:break-word}.mw-parser-output .citation q{quotes:"\"""\"""'""'"}.mw-parser-output .citation.cs-ja1 q,.mw-parser-output .citation.cs-ja2 q{quotes:"「""」""『""』"}.mw-parser-output .citation:target{background-color:rgba(0,127,255,0.133)}.mw-parser-output .id-lock-free a,.mw-parser-output .citation .cs1-lock-free a{background:url("//upload.wikimedia.org/wikipedia/commons/6/65/Lock-green.svg")right 0.1em center/9px no-repeat}.mw-parser-output .id-lock-limited a,.mw-parser-output .id-lock-registration a,.mw-parser-output .citation .cs1-lock-limited a,.mw-parser-output .citation .cs1-lock-registration a{background:url("//upload.wikimedia.org/wikipedia/commons/d/d6/Lock-gray-alt-2.svg")right 0.1em center/9px no-repeat}.mw-parser-output .id-lock-subscription a,.mw-parser-output .citation .cs1-lock-subscription a{background:url("//upload.wikimedia.org/wikipedia/commons/a/aa/Lock-red-alt-2.svg")right 0.1em center/9px no-repeat}.mw-parser-output .cs1-ws-icon a{background:url("//upload.wikimedia.org/wikipedia/commons/4/4c/Wikisource-logo.svg")right 0.1em center/12px no-repeat}.mw-parser-output .cs1-code{color:inherit;background:inherit;border:none;padding:inherit}.mw-parser-output .cs1-hidden-error{display:none;color:#d33}.mw-parser-output .cs1-visible-error{color:#d33}.mw-parser-output .cs1-maint{display:none;color:#3a3;margin-left:0.3em}.mw-parser-output .cs1-format{font-size:95%}.mw-parser-output .cs1-kern-left{padding-left:0.2em}.mw-parser-output .cs1-kern-right{padding-right:0.2em}.mw-parser-output .citation .mw-selflink{font-weight:inherit}RFC 1922を例に取ると、呼び出しにSIとSOの制御文字を使用するが、この仕様を宣言するアナウンス機能のエスケープシーケンスを省略している。また、初期状態ではG0にUS-ASCII、G1にGB2312-80を指示し、G0をGL領域に呼び出しているが、指示のエスケープシーケンスも省略している。
ISO国際登録簿

ISO/IEC 2022は具体的な符号化文字集合とは切り離して規定されているため、実際にこの規格を適用するにあたってはエスケープシーケンスの終端文字と符号化文字集合などとの具体的な対応関係を定める必要があり、そのために符号化文字集合のISO国際登録簿が存在する。これはエスケープシーケンスの終端文字についてそれぞれどの文字がどの符号化文字集合などに対応しているのかを定めたものである。符号化文字集合のISO国際登録簿と登録方法はISO/IEC 2375 Data Processing - Procedure for Registration of Escape Sequences (情報技術?エスケープシーケンス及び符号化文字集合の登録手順) に規定されている。

ISO国際登録簿への登録申請を行うことが出来るのは次の者に限定される。

ISO/IEC(ISO/IEC JTC 1結成以前はISO)の技術委員会(TC)または小委員会(SC)ISO TC 46/SC 4、ISO TC 97/SC 2、ISO TC 97/SC 21など

符号拡張またはエスケープシーケンスの使用法を検討するISO/IEC JTC/SC2(ISO/IEC JTC 1結成以前はISO TC 97/SC 2)内の作業グループ(WG)ISO/IEC JTC 1/SC 2/WG 2、ISO/IEC JTC 1/SC 2/WG 3、ISO TC 97/SC 2/WG 4、ISO TC 97/SC 2/WG 7など。

ISO/IEC(ISO/IEC JTC 1結成以前はISO)の会員団体(各国で1団体ずつと決められている。)米国規格協会(
ANSI)、日本工業標準調査会(JISC)、英国規格協会(BSI)、ドイツ規格協会(DIN)など。

ISO/IECの技術委員会または小委員会と関連のある国際機関ヨーロッパ電子計算機工業会(ECMA)、国際電気通信連合 電気通信標準化部門(ITU-T:旧CCITT)など。

登録の手続きと国際登録簿の維持管理は登録事務局(Registration Authority)がおこなうことになっている。現在、その事務局は日本の情報処理学会情報規格調査会 (IPSJ/ITSCJ) が引き受けている(符号化文字集合の国際登録簿)。かつてはECMA(欧州計算機製造業者協会、現Ecma International)が登録事務局を引き受けていた[9]

終端文字は登録順に16進数の「4/0」から順に割り振っていくことになっている。終端文字の割り振りは区分ごとに行われることになっている。(そのため同じ終端文字でも、どの区分の終端文字であるのかによって指し示す符号系は異なり、そのエスケープシーケンスがどの区分の符号系を指し示すのかは中間文字が何であるのかによって識別できる。)

登録数の最も多い94文字集合については、当初の規格で用意されていた利用可能な終端文字を使い切ってしまったため、第三次規格において94文字集合を指し示す新たな中間文字を設けてより多くの94文字集合が登録出来るように規定が改正された。

なお、一つの規格で定められた符号系であっても、文字の追加変更を含む改正が行われたときには異なる符号系として扱われることになっており、そのために改めて登録が行われ、新たな登録番号と終端符号が付与されることになる。例えばJIS X 0208は1978年版、1983年版、1990年版のそれぞれが、JIS X 02132000年版と2004年版がそれぞれ異なる符号系として登録されている。
応用例
7ビット符号によるマルチバイト用のキャラクタセット

ISO/IEC 2022の機構を使う7ビット符号のキャラクタセットには以下のものが含まれる。次のような特徴を持つ。
アナウンス機能のエスケープシーケンスは省略する。


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:91 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef