ISO/IEC_8859
[Wikipedia|▼Menu]

ISO 8859(より正式にはISO/IEC 8859)はコンピュータでの利用を目的とした8ビット文字コードの標準である。ISOIECが合同で定めた。この標準は複数の部(: part)に分かれており、それぞれがISO/IEC 8859-1、ISO/IEC 8859-2などのように番号付きで出版されている。それぞれの部自体を、非公式に標準として参照することがある。2009年現在、15の部(破棄されたISO/IEC 8859-12標準を除く)が存在する。
概要

ASCIIの印字可能文字のビットパターンは95個ある。これは現代英語の情報交換には十分だが、ラテン文字を使う他の言語のほとんどでは、ASCIIに含まれない文字をさらに追加する必要がある。たとえば「s」(ドイツ語)、「n」(スペイン語)、「a」(スウェーデン語と他の北ゲルマン語群)などである。ISO 8859では、8ビットバイトの第8ビットを使ってさらに128文字分の領域を確保することで、この問題を改善することを目指している(第8ビットはかつて、データ伝送手順の情報に使われる以外は、未使用のままだった)。しかし、単一の8ビット文字コードで収容できる以上の文字が必要になったため、ラテン文字を含めるのに必要な最低10個をはじめ、複数のマッピングが開発された。

ISO 8859-n符号化は印字可能文字のみを含み、未割り当ての符号位置にマップされる制御文字と組み合わせて使うように設計されていた。この目的のためにIANAが登録した一連の文字コードは、ISO 646からC0制御集合(符号位置0から31にマップされる制御文字)を、ISO 6429からC1制御集合(符号位置127から159にマップされる制御文字)を追加し、その結果完全な8ビット文字マッピングのほとんど(ないしはすべて)に文字を割り当てている。これらの集合はその推奨MIME名(推奨MIME名が規定されていない場合その正式名称)としてISO-8859-nという名前を持つ。多くの人が、用語ISO 8859-nとISO-8859-nを同等な意味を持つものとして用いる。ISO 8859-11TIS-620とほとんど同じであるためか、このようなキャラクタセット名を割り当てられていない。
文字

ISO 8859標準はタイポグラフィのためではなく、信頼性の高い情報交換のために設計されている。この標準は高品質のタイポグラフィに必要な文字(たとえば必須でない合字、左右の区別のある引用符、ダッシュなど)を省略している。その結果、高品質の電子組版のためのシステムでは、しばしばASCIIとISO 8859標準と相互交換のできないあるいは独自の拡張をほどこして使用したり、Unicodeを代わりに使ったりしている。

おおざっぱに言って、ある文字や記号がすでに広く使われているデータ処理文字集合の一部でなく、なんらかの言語用のタイプライタの鍵盤でも通常は提供されていない場合、その文字や記号は採用されていない。それゆえいくつかのヨーロッパ言語で使われている向きのある二重引用符「≪」と「≫」は含まれたが、英語などいくつかの言語で使われる向きのある二重引用符「“」と「”」は含まれなかった。フランス語の「?」と「?」は「oe」、「OE」とタイプできるため採用されなかった。「?」はテキストがすべて大文字でも必要とされるが、省略された。しかしながら、これらの文字は最近のISO 8859-15で新しいユーロ記号 ? の導入に際して含められることになった。同様にオランダ語の '?' と '?' の文字も収録されなかった。オランダ語話者は、代わりにこれらを2文字でタイプしてきたからである。ルーマニア語の「?/?」と「?/?」(コンマアクセント付きの文字)も最初は収録されなかった。これらの文字は当初「?/?」と「?/?」(セディーユ付きの文字)に統合されていたためである。ユニコードコンソーシアムは、下付きコンマの字形はセディーユの字形のグリフ変種であると考えてきた。しかしながら、後にUnicode標準とISO 8859-16でも、下付きコンマを区別して追加した。

ISO 8859エンコーディングのほとんどで、各種のヨーロッパ言語で必要なダイアクリティカルマーク付き文字を提供している。そうでないものは非ラテン文字を提供しているもの(ギリシア文字キリル文字ヘブライ文字アラビア文字タイ文字)である。エンコーディングのほとんどは前進文字のみを含むが、ヘブライ文字とアラビア文字のものは結合文字をも含んでいる。しかしながら、この標準は東アジア言語(CJK)用の用字系は何も提供していない。それらの漢字系書記体系には数千もの符号位置が必要だからである。ベトナム語はラテン文字ベースの文字を使うが、96個の位置には(結合ダイアクリティカルマークを使わない限り)やはりおさまらない。日本語の音節文字(ひらがなとカタカナ、仮名を参照)のそれぞれは収まるが、ISO 8859では符号化されていない。また世界の他の表音文字も符号化されていない。
ISO 8859の部

ISO 8859は以下の部に分かれている:

第1部ラテン1
西ヨーロッパおそらくもっとも広く使われているISO 8859の部であり、ほとんどの西ヨーロッパ言語をカバーする。デンマーク語オランダ語(一部[1])、英語フェロー語フィンランド語(一部[2])、フランス語(一部[2])、ドイツ語アイスランド語アイルランド語イタリア語ノルウェー語ポルトガル語レト・ロマンス語群スコットランド・ゲール語スペイン語スウェーデン語である。


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:71 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef