CP51932 - 暇つぶしWikipedia

CP51932

EUC-JP（Extended UNIX Code Packed Format for Japanese、日本語EUC）は日本語の文字を扱う場合に利用されてきた文字コード（符号化方式）のひとつである。

1980年代中頃、当時UNIXのライセンス事業を展開していたAT&TがUNIXの日本語化に向けて、日本のUNIXベンダーをメンバーとする日本語UNIXシステム諮問委員会を設置。ここでUNIXで日本語を扱うための文字コードについて議論が行われ、議論の結果をもとに同委員会から報告書がAT&T側へ出され、AT&Tにより定められた日本語機能のガイドラインがEUC-JPの起こりである。この時、AT&TからExtended Unix Code (EUC) として日本語に限らず多言語に対応できるように定められ、EUCのうち日本語を扱うものを特にEUC-JPなどと呼ぶ。他に、EUC-KR（韓国語）、EUC-CN（簡体中国語）等がある。

EUC-JPはEUCのエンコード方式上にASCIIとJIS X 0208文字集合を配置したもので、半角カナ (JIS X 0201) とJIS補助漢字 (JIS X 0212) も含むことができる。半角カナと補助漢字を使用しない場合は、JIS X 0208で規定されている符号化方式「国際基準版・漢字用8ビット符号」と同一となる。ISO/IEC 2022に適合する。

日本語文字はJIS X 0208をGR領域に表現したものを基本としており、2バイトで表現され、1バイト目、2バイト目ともに0x80 - 0xFFの範囲内にある。このため英数字と日本語文字の区別がしやすく、プログラム上での扱いが楽である。ただし、半角カナはISO-2022-JPやShift_JISと異なり制御文字SS2（シングルシフトツー、0x8E）に続けて現れるので都合2バイト、補助漢字は制御文字SS3（シングルシフトスリー、0x8F）に続けて現れるので都合3バイトを要する。

JIS X 0213:2004に対応するEUCコードはEUC-JIS-2004（2000年初版時はEUC-JISX0213）。

UNIX系OSの標準的な文字エンコードとして使用されてきた。かつて、WebサーバにUNIX系OSが多く用いられていたことから日本語のウェブサイトではShift_JISと並んでEUC-JPが多く使われていたが、2006年頃から世界的にUTF-8が普及し始めている [1]。全言語の主要なウェブサイトに占めるEUC-JPのシェアは、2010年から2019年にかけて0.7%から0.1%に低下している [2]。
制定経緯

1984年7月、当時UNIXのライセンスを販売していたAT&Tが東アジア・太平洋地域でライセンス事業を展開するため、子会社のAT&Tインターナショナル・ジャパンにUNIXシステム東京事務所（AT&Tユニックス・パシフィック）を設立。最初に日本で事業を展開するにあたり、UNIXの日本語化に向けて石田晴久を委員長に、日本電信電話公社、沖電気工業、東芝、日本電気、日立製作所、富士通、三菱電機といった当時のUNIXベンダーをメンバーとする日本語UNIXシステム諮問委員会を設置した。ここでUNIXで日本語を扱うための文字コードや機能について議論が行われ、その結果をもとに1985年4月30日付けで同委員会から報告書『UNIXシステム日本語機能の提案にあたって』がAT&T側へ提出された [3]。日本語EUCとしてのベースはこの報告書で概ね出来上がっていたが、AT&Tはこれを国際的に通用するよう、国際機能と各国語機能に分けて定義した。そして1986年2月にアナハイムで開催されたUNIXカンファレンス UniForum にて、各国語機能のサポート第1弾として Japanese Application Environment (JAE; 日本語アプリケーション・エンバイロメント) を発表。この中に文字コードの構造 (EUC) と日本語機能で使用される文字セットが定められた [4]。

1990年にJIS X 0212で補助漢字が制定されたことを受けて定義を拡張する必要が生じたため、1991年12月、Open Software Foundation (OSF) とUNIX International (UI)、UNIXシステムラボラトリーズ・パシフィック (USLP) はUNIX上の共通日本語文字コードとして日本語EUCを定義した [5]。
EUC-JPの亜種

EUC-JPには亜種が存在する。二種類を以下に解説する。

eucJP-msは、オープン・グループ及び日本ベンダ協議会が策定した文字符号化方式。実装例はMySQL v5.0以降等。

CP51932はマイクロソフトがWindowsで使用しているWindows-31JのEUC-JP互換表現。実装例はInternet Explorer4.0以降、EmEditor、秀丸エディタ等。このコードはNECのPC-9800シリーズの漢字コード（9区から12区の特殊文字を除外したもの）をGR表現したような体裁を持つ。ただし、PC-9800シリーズの漢字コードはJIS C 6226-1978をベースにするのに対して、CP51932はJIS X 0208-1990をベースとする点が異なる。

CP51932eucJP-ms
面＆区番号1バイト目2バイト目面＆区番号1バイト目2バイト目3バイト目
JIS X 0208-1990
(ひらがな・カタカナ等)1面1区 - 8区0xA1 - 0xA80xA1 - 0xFE1面1区 - 8区0xA1 - 0xA80xA1 - 0xFE―
NEC特殊文字1面13区0xAD1面13区0xAD
JIS X 0208-1990
(第一・第二水準漢字)1面14区 - 84区0xB0 - 0xF41面14区 - 84区0xB0 - 0xF4
NEC選定IBM拡張文字1面89区 - 92区0xF9 - 0xFC―――
ユーザ定義文字
(前半)―――1面85区 - 94区0xF5 - 0xFE0xA1 - 0xFE
JIS X 0212-1990
(前半)2面1区 - 11区0x8F0xA1 - 0xAB0xA1 - 0xFE
JIS X 0212-1990
(後半)2面16区 - 77区0xB0 - 0xED
IBM拡張文字
(JIS X 0212 以外)2面83区 - 84区0xF3 - 0xF4
ユーザ定義文字
(後半)2面85区 - 94区0xF5 - 0xFE

脚注 ^ Davis, Mark (2012年2月3日). “Unicode over 60 percent of the web” (英語). Official Google Blog. 2023年2月5日閲覧。
^ “Historical yearly trends in the usage statistics of character encodings for websites”. W3Techs. 2021年6月8日時点のオリジナルよりアーカイブ。2023年2月5日閲覧。
^ AT&Tユニックス・パシフィック「AT&Tおよび日本企業によるUNIXシステムV日本語機能の開発について」『情報科学』第21巻第5号、情報科学研究所、1985年、46-62頁、.mw-parser-output cite.citation{font-style:inherit;word-wrap:break-word}.mw-parser-output .citation q{quotes:"\"""\"""'""'"}.mw-parser-output .citation.cs-ja1 q,.mw-parser-output .citation.cs-ja2 q{quotes:"「""」""『""』"}.mw-parser-output .citation:target{background-color:rgba(0,127,255,0.133)}.mw-parser-output .id-lock-free a,.mw-parser-output .citation .cs1-lock-free a{background:url("//upload.wikimedia.org/wikipedia/commons/6/65/Lock-green.svg")right 0.1em center/9px no-repeat}.mw-parser-output .id-lock-limited a,.mw-parser-output .id-lock-registration a,.mw-parser-output .citation .cs1-lock-limited a,.mw-parser-output .citation .cs1-lock-registration a{background:url("//upload.wikimedia.org/wikipedia/commons/d/d6/Lock-gray-alt-2.svg")right 0.1em center/9px no-repeat}.mw-parser-output .id-lock-subscription a,.mw-parser-output .citation .cs1-lock-subscription a{background:url("//upload.wikimedia.org/wikipedia/commons/a/aa/Lock-red-alt-2.svg")right 0.1em center/9px no-repeat}.mw-parser-output .cs1-ws-icon a{background:url("//upload.wikimedia.org/wikipedia/commons/4/4c/Wikisource-logo.svg")right 0.1em center/12px no-repeat}.mw-parser-output .cs1-code{color:inherit;background:inherit;border:none;padding:inherit}.mw-parser-output .cs1-hidden-error{display:none;color:#d33}.mw-parser-output .cs1-visible-error{color:#d33}.mw-parser-output .cs1-maint{display:none;color:#3a3;margin-left:0.3em}.mw-parser-output .cs1-format{font-size:95%}.mw-parser-output .cs1-kern-left{padding-left:0.2em}.mw-parser-output .cs1-kern-right{padding-right:0.2em}.mw-parser-output .citation .mw-selflink{font-weight:inherit}ISSN 0368-3354。
^ 門田, 次郎「日本市場におけるAT&TのUNIX戦略―これからのシステムV日本語機能の展開」『コンピュートピア』第20巻第236号、コンピュータ・エージ社、1986年、72-75頁、ISSN 0010-4906。
^ 「UNIXの標準化2団体日本語EUC共通化」『標準化ジャーナル』第22巻第3号、日本規格協会、1992年、90頁、ISSN 0285-600X。

参考文献

『UNIX System V 日本語アプリケーション・エンバイロメントリリース 1.0 機能導入説明書』AT&Tユニックス・パシフィック、1986年。

中原, 康「III. 日本語処理技術」『電氣學會雜誌』第106巻第12号、1986年、1198-1202頁、ISSN 0020-2878。

小野芳彦: UNIXの日本語化の実現方法, 情報処理, Vol.27, No.12 (1986年12月), pp.1393-1400.

中原康: 日本語EUCの定義と解説, Revision 1.7, UI-OSF-USLP共同技術資料 (1991年12月10日).

表

話

編

歴
 文字コード
 日本語用の
文字コード

JIS規格

符号化文字集合

 JIS X 0201

JIS X 0208

JIS X 0212

JIS X 0213

JIS X 0221（日本文字部分レパートリ）

文字符号化方式

 ISO-2022-JP

EUC-JP

Shift_JIS

Shift_JISX0213

Shift_JIS-2004

EUC-JISX0213

EUC-JIS-2004

ISO-2022-JP-3

ISO-2022-JP-2004

漢字シフトコード

文字一覧

JIS X 0213非漢字一覧

 JIS X 0213漢字一覧の1面

 JIS X 0213漢字一覧の2面

JIS以外の公規格

MJ文字

 入管正字

 ARIB外字

 ARIB外字の追加記号一覧

メーカーの規格

Size:25 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef