コーパス
[Wikipedia|▼Menu]
.mw-parser-output .hatnote{margin:0.5em 0;padding:3px 2em;background-color:transparent;border-bottom:1px solid #a2a9b1;font-size:90%}

「コーパス」のその他の用法については「コーパス (曖昧さ回避)」をご覧ください。
.mw-parser-output .sidebar{width:auto;float:right;clear:right;margin:0.5em 0 1em 1em;background:#f8f9fa;border:1px solid #aaa;padding:0.2em;text-align:center;line-height:1.4em;font-size:88%;border-collapse:collapse;display:table}body.skin-minerva .mw-parser-output .sidebar{display:table!important;float:right!important;margin:0.5em 0 1em 1em!important}.mw-parser-output .sidebar-subgroup{width:100%;margin:0;border-spacing:0}.mw-parser-output .sidebar-left{float:left;clear:left;margin:0.5em 1em 1em 0}.mw-parser-output .sidebar-none{float:none;clear:both;margin:0.5em 1em 1em 0}.mw-parser-output .sidebar-outer-title{padding:0 0.4em 0.2em;font-size:125%;line-height:1.2em;font-weight:bold}.mw-parser-output .sidebar-top-image{padding:0.4em}.mw-parser-output .sidebar-top-caption,.mw-parser-output .sidebar-pretitle-with-top-image,.mw-parser-output .sidebar-caption{padding:0.2em 0.4em 0;line-height:1.2em}.mw-parser-output .sidebar-pretitle{padding:0.4em 0.4em 0;line-height:1.2em}.mw-parser-output .sidebar-title,.mw-parser-output .sidebar-title-with-pretitle{padding:0.2em 0.8em;font-size:145%;line-height:1.2em}.mw-parser-output .sidebar-title-with-pretitle{padding:0 0.4em}.mw-parser-output .sidebar-image{padding:0.2em 0.4em 0.4em}.mw-parser-output .sidebar-heading{padding:0.1em 0.4em}.mw-parser-output .sidebar-content{padding:0 0.5em 0.4em}.mw-parser-output .sidebar-content-with-subgroup{padding:0.1em 0.4em 0.2em}.mw-parser-output .sidebar-above,.mw-parser-output .sidebar-below{padding:0.3em 0.8em;font-weight:bold}.mw-parser-output .sidebar-collapse .sidebar-above,.mw-parser-output .sidebar-collapse .sidebar-below{border-top:1px solid #aaa;border-bottom:1px solid #aaa}.mw-parser-output .sidebar-navbar{text-align:right;font-size:75%;padding:0 0.4em 0.4em}.mw-parser-output .sidebar-list-title{padding:0 0.4em;text-align:left;font-weight:bold;line-height:1.6em;font-size:105%}.mw-parser-output .sidebar-list-title-c{padding:0 0.4em;text-align:center;margin:0 3.3em}@media(max-width:720px){body.mediawiki .mw-parser-output .sidebar{width:100%!important;clear:both;float:none!important;margin-left:0!important;margin-right:0!important}}.mw-parser-output .side-headbg-left{text-align:left}.mw-parser-output .side-headbg-w15em{width:15em}.mw-parser-output .side-headbg-w16em{width:16em}.mw-parser-output .side-headbg-w22em{width:22em}.mw-parser-output .side-headbg-w150px{width:150px}.mw-parser-output .side-headbgr-top-image-default{padding:0;line-height:0.4em}.mw-parser-output .side-headbg .sidebar-pretitle{padding-top:0.2em}.mw-parser-output .side-headbg .sidebar-pretitle-with-top-image{padding-top:0.2em}.mw-parser-output .side-headbg .sidebar-title{background:#ccf;padding:0.2em 0.4em 0.2em}.mw-parser-output .side-headbg .sidebar-title-with-pretitle{background:#ccf;padding:0.2em 0.4em 0.2em}.mw-parser-output .side-headbg .sidebar-heading{background:#ddf;padding:0.2em 0.4em 0.2em}.mw-parser-output .side-headbg .sidebar-content{padding:0.3em 0.4em 0.6em}.mw-parser-output .side-headbg .sidebar-content-with-subgroup{padding:0.3em 0.4em 0.6em}.mw-parser-output .side-headbg .sidebar-above{padding:0;line-height:0.4em}.mw-parser-output .side-headbg .sidebar-below{background:#ddf;padding-top:0.3em}.mw-parser-output .sidebar-headbg .sidebar-navbar{padding-top:0.4em}

言語学
世界の言語分布図
基礎分野


音声学

音韻論

形態論

統語論

意味論

語用論

個別言語学

言語の変化と変異


歴史言語学

比較言語学

言語地理学

言語系統論

言語年代学

言語類型論

社会言語学

方言学

理論


生成言語学

認知言語学

応用分野


応用言語学

対照言語学

言語人類学

心理言語学

神経言語学

生物言語学

計算言語学

計量言語学

法言語学

言語獲得

言語の起源

関連項目


言語

言語学者



ポータル

カテゴリ

.mw-parser-output .hlist ul,.mw-parser-output .hlist ol{padding-left:0}.mw-parser-output .hlist li,.mw-parser-output .hlist dd,.mw-parser-output .hlist dt{margin-right:0;display:inline-block;white-space:nowrap}.mw-parser-output .hlist dt:after,.mw-parser-output .hlist dd:after,.mw-parser-output .hlist li:after{white-space:normal}.mw-parser-output .hlist li:after,.mw-parser-output .hlist dd:after{content:" ・\a0 ";font-weight:bold}.mw-parser-output .hlist dt:after{content:": "}.mw-parser-output .hlist-pipe dd:after,.mw-parser-output .hlist-pipe li:after{content:" |\a0 ";font-weight:normal}.mw-parser-output .hlist-hyphen dd:after,.mw-parser-output .hlist-hyphen li:after{content:" -\a0 ";font-weight:normal}.mw-parser-output .hlist-comma dd:after,.mw-parser-output .hlist-comma li:after{content:"、";font-weight:normal}.mw-parser-output .hlist-slash dd:after,.mw-parser-output .hlist-slash li:after{content:" /\a0 ";font-weight:normal}.mw-parser-output .hlist dd:last-child:after,.mw-parser-output .hlist dt:last-child:after,.mw-parser-output .hlist li:last-child:after{content:none}.mw-parser-output .hlist dd dd:first-child:before,.mw-parser-output .hlist dd dt:first-child:before,.mw-parser-output .hlist dd li:first-child:before,.mw-parser-output .hlist dt dd:first-child:before,.mw-parser-output .hlist dt dt:first-child:before,.mw-parser-output .hlist dt li:first-child:before,.mw-parser-output .hlist li dd:first-child:before,.mw-parser-output .hlist li dt:first-child:before,.mw-parser-output .hlist li li:first-child:before{content:" (";font-weight:normal}.mw-parser-output .hlist dd dd:last-child:after,.mw-parser-output .hlist dd dt:last-child:after,.mw-parser-output .hlist dd li:last-child:after,.mw-parser-output .hlist dt dd:last-child:after,.mw-parser-output .hlist dt dt:last-child:after,.mw-parser-output .hlist dt li:last-child:after,.mw-parser-output .hlist li dd:last-child:after,.mw-parser-output .hlist li dt:last-child:after,.mw-parser-output .hlist li li:last-child:after{content:")\a0 ";font-weight:normal}.mw-parser-output .hlist ol{counter-reset:listitem}.mw-parser-output .hlist ol>li{counter-increment:listitem}.mw-parser-output .hlist ol>li:before{content:" "counter(listitem)" ";white-space:nowrap}.mw-parser-output .hlist dd ol>li:first-child:before,.mw-parser-output .hlist dt ol>li:first-child:before,.mw-parser-output .hlist li ol>li:first-child:before{content:" ("counter(listitem)" "}.mw-parser-output .navbar{display:inline;font-size:75%;font-weight:normal}.mw-parser-output .navbar-collapse{float:left;text-align:left}.mw-parser-output .navbar-boxtext{word-spacing:0}.mw-parser-output .navbar ul{display:inline-block;white-space:nowrap;line-height:inherit}.mw-parser-output .navbar-brackets::before{margin-right:-0.125em;content:"[ "}.mw-parser-output .navbar-brackets::after{margin-left:-0.125em;content:" ]"}.mw-parser-output .navbar li{word-spacing:-0.125em}.mw-parser-output .navbar-mini abbr{font-variant:small-caps;border-bottom:none;text-decoration:none;cursor:inherit}.mw-parser-output .navbar-ct-full{font-size:114%;margin:0 7em}.mw-parser-output .navbar-ct-mini{font-size:114%;margin:0 4em}.mw-parser-output .infobox .navbar{font-size:88%}.mw-parser-output .navbox .navbar{display:block;font-size:88%}.mw-parser-output .navbox-title .navbar{float:left;text-align:left;margin-right:0.5em}









コーパス(: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、統語構造など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい[1]コンピュータ利用が進み、電子化データとして提供されている[2]
概要

「身体」を意味する ラテン語: corpus に由来する。複数形は ラテン語: corpora(コーポラ)。英語式複数形とした 英語: corpuses の使用も散見される。

大規模なコーパスの作成には、相当の費用時間がかかる。使用する文章に関わる著作権など、法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用により、それ以前に比べ、かなりの労力軽減と多様な構造化が実現した。日本では国立国語研究所が一億語の収録を目指す「KOTONOHA計画」をすすめている。

構造化した言語データを「一般利用する」という観点からは、三省堂ウィズダム英和・和英辞典の用例を「用例コーパス」として、一時期無料公開していた。

日本でコーパスを一般に広く知らしめたのは、英語学者投野由紀夫である。2003年NHK教育テレビジョン100語でスタート!英会話』で、英語コーパスを教材に活用した放送授業を展開し、それまで専門家しか知らなかったコーパスを一般的な存在へ変えた。2009年には新シリーズとしてずばりコーパスをタイトルに入れた『コーパス100!で英会話』が放送されている。
生コーパス

人手により作成されたコーパスと区別する意味で、単に文書を集めたものを生コーパス(英: raw corpus)とよぶ[3]

Brown コーパスのような様々なジャンルのテキストをバランスよく収集したものを均衡コーパス(英: balanced corpus)とよぶ[3]


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:22 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef