過剰適合 - 暇つぶしWikipedia

過剰適合

.mw-parser-output .hatnote{margin:0.5em 0;padding:3px 2em;background-color:transparent;border-bottom:1px solid #a2a9b1;font-size:90%}

「過学習」はこの項目へ転送されています。教育学用語については「過剰学習」をご覧ください。
.mw-parser-output .ambox{border:1px solid #a2a9b1;border-left:10px solid #36c;background-color:#fbfbfb;box-sizing:border-box}.mw-parser-output .ambox+link+.ambox,.mw-parser-output .ambox+link+style+.ambox,.mw-parser-output .ambox+link+link+.ambox,.mw-parser-output .ambox+.mw-empty-elt+link+.ambox,.mw-parser-output .ambox+.mw-empty-elt+link+style+.ambox,.mw-parser-output .ambox+.mw-empty-elt+link+link+.ambox{margin-top:-1px}html body.mediawiki .mw-parser-output .ambox.mbox-small-left{margin:4px 1em 4px 0;overflow:hidden;width:238px;border-collapse:collapse;font-size:88%;line-height:1.25em}.mw-parser-output .ambox-speedy{border-left:10px solid #b32424;background-color:#fee7e6}.mw-parser-output .ambox-delete{border-left:10px solid #b32424}.mw-parser-output .ambox-content{border-left:10px solid #f28500}.mw-parser-output .ambox-style{border-left:10px solid #fc3}.mw-parser-output .ambox-move{border-left:10px solid #9932cc}.mw-parser-output .ambox-protection{border-left:10px solid #a2a9b1}.mw-parser-output .ambox .mbox-text{border:none;padding:0.25em 0.5em;width:100%;font-size:90%}.mw-parser-output .ambox .mbox-image{border:none;padding:2px 0 2px 0.5em;text-align:center}.mw-parser-output .ambox .mbox-imageright{border:none;padding:2px 0.5em 2px 0;text-align:center}.mw-parser-output .ambox .mbox-empty-cell{border:none;padding:0;width:1px}.mw-parser-output .ambox .mbox-image-div{width:52px}html.client-js body.skin-minerva .mw-parser-output .mbox-text-span{margin-left:23px!important}@media(min-width:720px){.mw-parser-output .ambox{margin:0 10%}}

この記事は英語版の対応するページを翻訳することにより充実させることができます。（2024年5月）翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。

英語版記事を日本語へ機械翻訳したバージョン（Google翻訳）。

万が一翻訳の手がかりとして機械翻訳を用いた場合、翻訳者は必ず翻訳元原文を参照して機械翻訳の誤りを訂正し、正確な翻訳にしなければなりません。これが成されていない場合、記事は削除の方針G-3に基づき、削除される可能性があります。

信頼性が低いまたは低品質な文章を翻訳しないでください。もし可能ならば、文章を他言語版記事に示された文献で正しいかどうかを確認してください。

履歴継承を行うため、要約欄に翻訳元となった記事のページ名・版について記述する必要があります。記述方法については、Wikipedia:翻訳のガイドライン#要約欄への記入を参照ください。

翻訳後、{{翻訳告知|en|Overfitting|…}}をノートに追加することもできます。

Wikipedia:翻訳のガイドラインに、より詳細な翻訳の手順・指針についての説明があります。

ノイズのある、ほぼ線形なデータは、一次関数にも多項式関数にも適合する。多項式関数は各データポイントを通過し、一次関数は必ずしもデータポイントを通過しないが、端の方で大きな変化が生じることがないため、一次関数の方がよりよい適合であると言える。回帰曲線を使ってデータを外挿した場合、過剰適合であれば悪い結果となる。教師あり学習（ニューラルネットワークなど）における過剰適合。訓練時のエラーを青、評価時のエラーを赤で示している。訓練時のエラーが減少しているのに、評価時のエラーが増えている場合、過剰適合が起きている可能性がある。

過剰適合（かじょうてきごう、英: overfitting）や過適合（かてきごう）や過学習（かがくしゅう、英: overtraining）とは、統計学や機械学習において、訓練データに対して学習されているが、未知データ（テストデータ）に対しては適合できていない、汎化できていない状態を指す。汎化能力の不足に起因する。

その原因の一つとして、統計モデルへの適合の媒介変数が多すぎる等、訓練データの個数に比べて、モデルが複雑で自由度が高すぎることがある。不合理で誤ったモデルは、入手可能なデータに比較して複雑すぎる場合、完全に適合することがある。

対義語は過少適合（かしょうてきごう、英: underfitting）や過小学習（かしょうがくしゅう、英: undertraining）。
機械学習

機械学習の分野では過学習（overtraining）とも呼ばれる。過剰適合の概念は機械学習でも重要である。通常、学習アルゴリズムは一連の訓練データを使って訓練される。つまり、典型的な入力データとその際の既知の出力結果を与える。学習者はそれによって、訓練データでは示されなかった他の例についても正しい出力を返すことができるようになると期待される。しかし、学習期間が長すぎたり、訓練データが典型的なものでなかった場合、学習者は訓練データの特定のランダムな（本来学習させたい特徴とは無関係な）特徴にまで適合してしまう。このような過剰適合の過程では、訓練データについての性能は向上するが、それ以外のデータでは逆に結果が悪くなる。
交差検証詳細は「交差検証」を参照

統計学の場合も機械学習の場合も、追加の技法（交差検証）を用いることによって、過剰適合に陥らず、訓練がよりよい一般化となっていることを確認し、かつ示す必要がある。
過剰適合の回避方法「偏りと分散」も参照
 正則化詳細は「正則化」を参照

機械学習や統計学において、媒介変数を減らすのではなく、誤差関数に正則化項を追加して、モデルの複雑度・自由度に抑制を加え、過学習を防ぐ方法がある。L2 正則化や L1 正則化などがある。

サポートベクターマシンにおいては、媒介変数（パラメータ）を減らすのではなく、マージンを最大化することにより、過学習を防いでいて、これも、L2 正則化と同じような手法に基づいている。
早期打ち切り

早期打ち切り（英語版）(early stopping)とは、学習の反復において、訓練データと評価データの両方の評価値を監視し、評価データでの評価値が悪化し始める所で学習を早期に打ち切る方法。
参考文献

Tetko, I. V.; Livingstone, D. J.; Luik, A. I. (1995). “Neural network studies. 1. Comparison of Overfitting and Overtraining”. J. Chem. Inf. Comput. Sci. 35 (5): 826?833. doi:10.1021/ci00027a006.

関連項目

 曲線あてはめ

 オッカムの剃刀

 偏りと分散

表

話

編

歴
 統計学
 標本調査

 標本

 母集団

 無作為抽出

 層化抽出法

 要約統計量

連続確率分布

位置

 平均

 算術

 幾何

 調和

 中央値

 分位数

 順序統計量

 最頻値

階級値

分散

範囲

偏差

 偏差値

 標準偏差

 標準誤差

 変動係数

 決定係数

 相関係数

 自己相関

 共分散

 自己共分散

 分散共分散行列

 百分率

 統計的ばらつき

 モーメント

 分散

 歪度

 尖度

カテゴリデータ

頻度

分割表

 推計統計学

仮説検定

パラメトリック

t検定

 ウェルチのt検定

 F検定

 Z検定

 二項検定

 ジャック-ベラ検定

 シャピロ?ウィルク検定

 分散分析

 共分散分析

 ノンパラメトリック

 ウィルコクソンの符号順位検定

 マン・ホイットニーのU検定

 カイ二乗検定

Size:26 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef