日本語処理 - 暇つぶしWikipedia

日本語処理

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。（このテンプレートの使い方）
出典検索?: "日本語処理" ? ニュース・書籍・スカラー・ CiNii ・ J-STAGE ・ NDL ・ dlib.jp ・ジャパンサーチ・ TWL（2023年8月）

日本語処理（にほんごしょり）は、自然言語処理の下位分類のひとつで、自然言語のひとつである日本語をコンピュータに処理させる技術のこと。
歴史

アルファベット中心の欧米ではタイプライターやテレタイプ端末、各種のターミナルを経てパーソナルコンピュータ上の端末エミュレータ、ワープロソフト、DTPなどが普及した。日本語はわかち書きなしの漢字仮名交じり表記が一般的なため、和文タイプライターを経て1950年代には漢字テレタイプが端末としても使用された。

1972年には日本経済新聞グループと日本IBMの共同開発で世界初のコンピュータを利用した新聞製作システム ANNECS（アネックス）が稼働し、更に1980年には朝日新聞が日本IBMと共同開発したNELSON（ネルソン）が稼働した。これらはメインフレームと専用端末を含むIBM漢字システムで、日本語の新聞紙面に必要なかな漢字文の入力、表示、禁則処理などに対応した [1]。

並行して1960年代から1970年代にかけて九州大学、沖電気、NHK、NTT、大阪大学などでかな漢字変換の技術が研究され、1978年には東芝が初の日本語ワードプロセッサのJW-10を発表した [2]。

またパーソナルコンピュータでの日本語入力システムにはインプットメソッドエディタ（IME、当時はFEPとも）が普及した。Mac以外では、日本語の高速な表示には各社独自仕様のハードウェアであるテキストVRAMが使用されたが、1990年に登場したDOS/VやMicrosoft Windowsなどのグラフィカルユーザインタフェース(GUI)環境の普及により、世界のデファクトスタンダードであるPC/AT互換機が日本でも一般的となった。
言語学・国文法学との関連

音声入出力などは音声学などの言語学的要素を含む。しかし現在のところ、日本語処理はテキストデータによる入出力が中心となっているため、やや関連は薄い。いわゆる学校文法とも（特に動詞の活用などについては）距離がある。学校文法は国学（本居春庭など）の影響もあって五十音図を基盤にしており、同時に橋本進吉は活用表を学生自身の「気づき」を促すための素材として捉えていたため、機械学習などを行わなければ、コンピュータの動作にたいして正確に反映させることは難しい。そこで、日本語処理における日本語文法は、「音素」「指標音」「形態素」「活用語尾」といった独自の用語が使われており、学校文法とはかなり異質なものになっている。

とはいえ日本語教育との相性は悪くない。具体例としては、「書く」は音素ベースで書くならば「kak-a」（「ない」「ぬ」「ん」に接続）「kak-i」（「ます」に接続。連用形）「kak-u」（体言。連体形）「kak-e」（「ば」。いわゆる仮定形。正確には已然形）「kak-o」（「う」。未然形）となり、語幹は「kak」であり、「kai-ta」「kai-te」の場合には語幹の末尾音の「k」が消失（あるいは「i」に変化）する、と説明できるが、学校文法においては「書く」の活用は五十音図に基づくため「五段活用カ行」とされており、この説明と整合させようとすると煩瑣になる。これに対して日本語教育では、日本語を母語としない学生を対象にしているため、「漢字ローマ字交じり文」を経て「かな書き」の習得を経て「漢字かな交じり文」にするというプロセスになじみやすい [注 1]。

Size:17 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef