ISO/IEC_8859-1
[Wikipedia|▼Menu]

ISO 8859-1(より正式にはISO/IEC 8859-1)はISO/IEC 8859の第一部であり、ラテンアルファベット文字コード標準である。よりくだけた言い方ではLatin-1と呼ばれる。最初はISOによって開発されたが、後にISOとIECによって合同で保守されている。この標準に追加の文字を(16進符号0x00-0x1Fの「C0領域」と、0x80-0x9F「C1領域」の範囲に)割り当てたものは、2つの広く使われているキャラクタセットの基となる。ISO-8859-1(余分なハイフンに注意)とWindows-1252と呼ばれるものである。

2004年6月、8ビット符号化文字集合の整備を担当するISO/IECの作業部会は、国際符号化文字集合 (UCS) とUnicodeの開発に専念するために解散し、ISO 8859-1を含むすべてのISO 8859の整備を中止した。コンピュータアプリケーションにおいては、(UTF-8UTF-16のような)完全なUCSサポートを提供するエンコーディングが、ISO 8859-1に基づくエンコーディングよりもますます多く使われるようになりつつある。
網羅範囲

ISO 8859-1が符号化しているものは「ラテン文字第1部」と呼ばれ、ラテン用字系の191文字からなる。この文字エンコーディングはアメリカ州西ヨーロッパオセアニア、およびアフリカの多くで使われている。東アジア言語のほとんどの標準ローマ字表記でも広く使われている。

各文字は単一の8ビット符号値で符号化される。これらの符号値は、データ交換システムが以下のヨーロッパ言語で通信する際の需要をほぼ満たす が、足りない文字のためにわずかな例外がある。これについては注記を参照されたい。
現代のアルファベットを完全に網羅している言語



アフリカーンス語

アルバニア語

ブルトン語

デンマーク語

英語(アメリカ合衆国と現代イギリス)

フェロー語

ガリシア語

ドイツ語


アイスランド語

アイルランド語(新しい正書法)

イタリア語

ラテン語(基本的な古典的正書法)

ルクセンブルク語(基本的な古典的正書法)

ノルウェー語(ブークモールとニーノシュク)

オック語

ポルトガル語(ヨーロッパのポルトガル語とブラジル・ポルトガル語)


レト・ロマンス語

スコットランド・ゲール語

スペイン語

スワヒリ語

スウェーデン語

ワロン語

日本語 (訓令式ローマ字)


アルファベットをほぼ完全にカバーしているため広く対応している言語

オランダ語(「?」「?」が足りないがこれらは電子形式では常に「IJ」や「ij」として表現されるべきである)

エストニア語(外来語で使われる「?」「?」「?」「?」が足りない)

Windows-1252とISO/IEC 8859-15はこれらを含むことに注意


フランス語(「?」「?」およびきわめてまれな「?」が足りない; これらは一般に通常は必要なリガチャなしで「OE」や「oe」に置き換えられ、トレマなしで「Y」に置き換えられる)

Windows-1252とISO-8859-15はこれらを含むことに注意


フィンランド語(外来語で使われる「?」「?」「?」「?」が足りない)

Windows-1252とISO-8859-15はこれらを含むことに注意



約物と引用符の範囲

上の一覧に挙げたいくつかの言語では正しい印刷用の引用符が足りない。「≪」「≫」、「"」「'」のみが含まれている。

加えて、このエンコーディングはアポストロフィーと方向付き単引用符に正しい文字を提供しない。が、テキスト中で6型/9型の引用符やアポストロフィーの代わりに前進付きグレイヴ・アクセントと前進付きアキュート・アクセント(これらはどちらもISO 8859-1に含まれる)を使うやりかたもある。なお、このやりかただと、これらの文字が傾いたくさび型のグリフで表示される書体でもうまく表示できる。「ラテン文字一覧」も参照
歴史

ISO 8859-1はDECの有名なVT220(英語版)端末で使われていたMultinational Character Set(英語版)をもとに作られた。開発は欧州電子計算機工業会(ECMA、現Ecmaインターナショナル)と米国国家規格協会が共同で行い、1984年12月ECMA-94として制定、1985年3月にECMA-94として出版された。ただし、この時点のECMA-94は、13/07「×」と15/07「÷」を含んでいなかった。1986年6月にECMA-94は改定されており、 ⇒ECMA-94 第二版は規格の一部としてISO/IEC 8859-2ISO/IEC 8859-3、およびISO/IEC 8859-4をも含んでいる。

ECMA-94の一部であるISO 8859-1およびISO 8859-2は、1987年2月15日にISOの国際規格として制定された。また、ISO 8859-3およびISO 8859-4は、少し遅れて1988年4月15日に制定されている。
ISO/IEC 8859-15との関係

ISO/IEC 8859-1にはほとんどのフランス語テキストの表記に十分な文字が含まれているが、使用頻度の低い少数の文字が欠けている。文字 ? の単一グリフによる表現、外国の固有名詞や少数の外来語で使われるフィンランド語の文字(?と?)、印刷用の引用符ダッシュ、およびユーロ記号 (en) (?) やダガー (†) のようなよく使われる記号も不足している。

ISO/IEC 8859-15はISO/IEC 8859-1の更新版として開発され、これらの文字のいくつかを提供した。しかしそのためには、ISO/IEC 8859-1からあまり使われない文字をいくつか取り除く必要があった。取り除かれた文字は以下の通りで、分数記号や単独のダイアクリティカルマークが含まれる。?, |, ¨, ´, ,, ?, ?, ? である。
符号表

ISO/IEC 8859-1によって符号化される191文字はすべて「図形」(graphic。制御符号でない文字を表すISOの用語)であり、かつほとんどのWebブラウザと互換性があるため、以下の表でグリフとして示すことができる。空白、ノーブレークスペース、およびソフトハイフン文字は通常不可視なので、その名前の省略形によって表現してある。すべての他の文字はそのまま表現してある。行見出しと列見出しは8ビット符号値を作り出すための16進数による桁の組み合わせを示す。たとえば、文字 L は符号値 4C である。

ISO/IEC 8859-1
x0x1x2x3x4x5x6x7x8x9xAxBxCxDxExF
0x.mw-parser-output .jis90font{font-family:"Hiragino Kaku Gothic Pro","ヒラギノ角ゴ Pro","ヒラギノ角ゴ Pro W3","A-OTF 新ゴ Pro R","ヒラギノ角ゴ2","ヒラギノ角ゴ3","ヒラギノ角ゴ4","小塚ゴシック Pro R","小塚ゴシック Pro","SH G30-P","FC平成角ゴシック体","FA ゴシック","IPA モナー ゴシック","VL ゴシック","Droid Sans Japanese","MS PRゴシック","TGothic-GT01","東風ゴシック","さざなみゴシック","Komatuna","M+1P+IPAG","Mona","JSPゴシック","AR P丸ゴシック体M","EPSON 丸ゴシック体M","Osaka","CRPC&Gれいしっく","FGP平成明朝体W3","GT2000-01","和田研細丸ゴシック2000P","和田研細丸ゴシック2000P4",YOzFont90,YOzFontN90,"Yu Gothic UI","Meiryo UI";font-variant-east-asian:jis90}.mw-parser-output .jis2004font{font-family:"源ノ角ゴシック JP Normal","源ノ角ゴシック JP","Source Han Sans Normal","Source Han Sans","NotoSansJP-DemiLight","Noto Sans CJK JP DemiLight","ヒラギノ角ゴ ProN W3","ヒラギノ角ゴ ProN","Hiragino Kaku Gothic ProN","メイリオ",Meiryo,"新ゴ Pr6N R","A-OTF 新ゴ Pr6N R","小塚ゴシック Pr6N M","IPAexゴシック","Takaoゴシック","XANO明朝U32","XANO明朝","和田研中丸ゴシック2004絵文字","和田研中丸ゴシック2004ARIB","和田研中丸ゴシック2004P4","和田研細丸ゴシック2004絵文字","和田研細丸ゴシック2004ARIB","和田研細丸ゴシック2004P4","和田研細丸ゴシックProN",YOzFont04,"IPA Pゴシック","Yu Gothic UI","Meiryo UI","MS Pゴシック";font-feature-settings:"jp04"1}未使用
1x
2xSP!"#$%&'()*+,-./
3x0123456789:;<=>?
4x@ABCDEFGHIJKLMNO
5xPQRSTUVWXYZ[\]^_
6x`abcdefghijklmno
7xpqrstuvwxyz{|}~
8x未使用
9x
AxNBSP!¢£?\|§¨ca¬SHYR
Bx°±23´μ1o????
CxAAAAAAACEEEEIIII
DxDNOOOOO×OUUUUYTs
Exaaaaaaaceeeeiiii
Fxdnooooo÷ouuuuyty

符号値00?1F, 7F?9FはISO/IEC 8859-1では文字を割り当てていない。

下位領域の20から7E(G0部分集合)はISO 646 US版(通称ASCII)のG0部分集合と正確に同じマッピングである。ISO 2022の指示シーケンスは"ESC ( B"。上位領域のA0からFF(G1部分集合)はISO 2022のシーケンス"ESC . A"で指示される部分集合と正確に同じマッピングである。
関連する文字マッピング

ISO/IEC 8859-1標準は、長い間多数の 文字マッピング(別名キャラクタセット、charsets、もしくはコードページ)の基盤となってきた。キャラクタセットのうちもっとも有名なものは ISO-8859-1とWindows-1252である。これらのマッピングはどちらもISO/IEC 8859-1の上位集合である。すなわち、これらは00?1F, 7F, および 80?9F範囲にある符号値の少なくとも一部に追加の文字をマッピングすることにより、標準の191文字に割り当てを追加する。
ISO-8859-1

1992年Internet Assigned Numbers Authorityは文字マッピングISO_8859-1:1987をインターネットで使うために登録した。ISO_8859-1:1987はISO 8859-1の上位集合であり、その推奨MIME名ISO-8859-1(ISO 8859-1に余分なハイフンが付いていることに注意)でより広く知られている。この写像はC0およびC1制御文字を符号値00?1F, 7F, および80?9Fに割り当てている。8ビットで可能なあらゆる値に割り当てをしているため、256文字を提供していることになる。

ISO-8859-1は(少なくとも規格によると)HTTP経由で配信され、"text/"で始まるMIMEタイプの文書における既定のエンコーディングである。ISO-8859-1はある種の記述的なHTTPヘッダの値の既定のエンコーディングであり、この文字集合を使うロケールのほとんどのUNIXマシン上でX Window Systemによって使われる標準エンコーディングである。ISO-8859-1はさらにHTML 3.2文書で許される文字レパートリの基になっている(しかしながら、HTML 4.0はUnicodeに基づく)。

エスケープシーケンス(ISO/IEC 6429やISO/IEC 2022に由来する)はISO-8859-1で符号化されているとラベル付けされた文書では解釈されない。上述の正式名称や推奨MIME名ばかりでなく、以下のような別名がISO-8859-1のために登録されている: ISO_8859-1, ISO-8859-1, iso-ir-100, csISOLatin1, latin1, l1, IBM819, CP819. ISO-8859-1はISO/IEC 10646Unicodeの最初の256個の符号位置にも組み込まれた。

符号値制御文字省略形


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:46 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef