統計学的推定 - 暇つぶしWikipedia

統計学的推定

出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。記事の信頼性向上にご協力をお願いいたします。（2016年9月）

推計統計学（すいけいとうけいがく、英: inferential statistics, inductive statistics）あるいは統計的推論（英: statistical inferenece）とは、母集団全体を知ることができない場合に、母集団から抽出された部分集団（抽出集団、標本集団）をもとに、確率論を用いて母集団の様子を推定する統計学の分野を言う。推計という語は、推定、推論、推測などと訳されることもある。
概要

19世紀後半から20世紀初頭にかけて発達した統計学は、現在では推計統計学と区別して、「記述統計学 (descriptive statistics) 」と呼ばれている。集団の規則性を求めることが統計学の目的であるが、記述統計学においては集団の規則性は大量の標本を観察することによってのみ発見することができるものだと考えられていた。そのため記述統計学は、現実的な制約により少数の標本しか得られない現象について、その帰属する母集団の規則性を求めることができなかった。そのような事例に対応するために発達したのが推計統計学である。

推計統計学は実世界の様々な分野で使われているが、分かりやすい例としては抜き取り調査による品質管理や疫学調査などが挙げられる。

推計統計学は、頻度主義に基づいたものとベイズ統計学に基づいたものに分けられる。

頻度主義における統計学的推論は、母集団を規定する量＝パラメータ（母数）を既定の固定値としてそれを推定するという方法（パラメトリック推定）に基いて発展してきた。基礎的なパラメトリック推定における統計学的推測は、以下のように細分される。

点推定: θ ^ = arg ⁡ max θ E s t i m a t o r ( θ ) {\displaystyle {\hat {\theta }}=\arg \max _{\theta }Estimator(\theta )}

区間推定

仮説検定

最近は、不確実性を確率分布として表現するベイズ統計学が注目されている。
統計モデル

X ∼ p m o d e l ( X ∣ θ ) {\displaystyle X\sim p_{model}(X\mid \theta )}

統計モデルとは、対象を統計（母集団と標本）の側面から抽象化したものである。（推測）統計学では母集団が確率的に標本を生み出すと考えるため、統計モデルは確率分布を内包したモデルとなる。例えばコイン振りの統計モデルはベルヌーイ分布でモデル化しうるし、ほかの分布でもモデル化できるかもしれない。

良い統計モデルを設定しようとする過程全体のことを統計モデリングという。モデル選択は統計モデリングの重要事項の1つのである。選択された統計モデルは母集団と一致するように、データ（標本）に基づいてとそのパラメータが推定される（統計的推測）。母集団とモデルのずれは汎化誤差（過剰適合 § 汎化誤差）で評価されることもある。

統計的機械学習の文脈では、母集団が標本を生成するモデルという面に着目して生成モデルと呼ばれることもある（詳しくは機械学習 § 統計的機械学習）。
統計的推測

X ∼ q ( X ∣ θ 0 ) p m o d e l ( X ∣ θ ^ ) {\displaystyle {\begin{array}{lcl}X\sim q(X\mid \theta _{0})\\p_{model}(X\mid {\hat {\theta }})\end{array}}}

統計的推測とは、「データが与えられたとき、そのデータを発生している確率分布を推測すること」である [1]。すなわち、真なる母集団から標本（データ）が得られたとき、その（一般には観測できない）真なる母集団確率分布を推測する過程が統計的推測である。

一般的な真なる推測の流れは、
標本（データ）x の取得

真なる母集団 q(X|θ0) を模した統計モデル p(X|θ) のモデリング

標本 x に基づいたパラメータ θ の推測 -> 推定値 θ ^ {\displaystyle {\hat {\theta }}}

真なる母集団の統計的推測結果として p (X。 θ ^ {\displaystyle {\hat {\theta }}} ) の提示

となる。

統計的推論は個別・具体的事象(標本)から一般・普遍的な規則や原理(母集団モデル)を求める方法論であり、帰納的推論の一種である。
区間推定

点推定で推定したパラメータのバラツキや信頼区間を示すこと。

正規分布の場合には標準誤差 (Standard Error, SE) を用いることが多い。平均値の標準誤差を特に SEM (standard error of the mean) と呼ぶ。SEMは以下の式で算出される。 S E M = ∑ i = 1 n ( x i − μ ^ ) 2 n ( n − 1 ) {\displaystyle SEM={\sqrt {\frac {\sum \limits _{i=1}^{n}(x_{i}-{\hat {\mu }})^{2}}{n(n-1)}}}}

Size:40 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef