統計学 - 暇つぶしWikipedia

統計学

□記事を途中から表示しています
[最初から表示]

統計学の業績について高く評価され1858年には王立統計学会初の女性会員となった [24]。

同じく19世紀半ばにチャールズ・ダーウィンの進化論が発表され、彼の従弟に当たるフランシス・ゴルトンは数量的側面から生物進化の研究に着手した。これは当時「biometrics（バイオメトリクス）」（生物測定学）と呼ばれ、多数の生物（ヒトも含めて）を対象として扱う統計学的側面を含んでいる [25]。ゴルトンは平均への回帰の発見で有名である [26]が、当初生物学的と思われたこの現象は一般の統計学的対象の解析でも重要であることが明らかとなる。ゴルトンの後継者となった数学者カール・ピアソンはこのような生物統計学をさらに数学的に発展させ（数理統計学）、19世紀終わりから20世紀にかけ記述統計学を大成する [27][注釈 3]。

20世紀に入ると、ウィリアム・ゴセット [28]、続いてロナルド・フィッシャーが農学の実験計画法研究をきっかけとして数々の統計学的仮説検定法を編み出し、記述統計学から推計統計学の時代に移る [29]。ここでは母集団から抽出された標本を基に、確率論を利用して逆に母集団を推定するという考え方がとられる。続いてイェジ・ネイマン、エゴン・ピアソンらによって無作為抽出法の採用など現代の数理統計学の理論体系が構築され [30]、これは社会科学、医学、工学、オペレーションズ・リサーチなどの様々な分野へ応用されることとなった。

こうして推計統計学は精緻な数学理論となった反面、応用には必ずしも適していないとの批判が常にあった。

これに呼応して、在来の客観確率を前提に置く統計学に対し、それまでごく少数によって提唱されていたにすぎなかった主観確率を中心に据えたベイズ統計学が1954年にレオナルド・サベージ（英語版）の『統計学の基礎』によって復活した [31]。ベイズの定理に依拠する主観確率の考え方は母集団の前提を必要とせず不完全情報環境下での計算や原因の確率を語るなど、およそ在来統計学とは正反対の立場に立つため、その当時在来統計学派はベイズ統計学派のことを『ベイジアン』と名付けて激しく対立した。しかし主観確率には、新たに取得した情報によって確率を更新する機能（＝ベイズ推定）が内包され、この点が大きな応用の道を開いた。今や統計学では世界的にベイズ統計学が主流となり、先端的応用分野ではもっぱらベイズ統計学が駆使されている。

計量経済学、統計力学 [32][33][34]、バイオテクノロジー、疫学、機械学習、データマイニング、制御理論、インターネットなど、あらゆる分野でベイズ統計学は実学として活用されている。スパムメールフィルタや日本語入力システムの入力予測など身近な応用も数多い。20世紀末にはマルコフ連鎖モンテカルロ法など理論面で様々な革新的考案もなされ、旧来の統計学では不可能であったような各分野で多くの応用がなされるようになっている。これらベイズ統計学についての展開は、いずれも計算環境の進歩と不可分である [35]。
他分野との関係
 確率論

確率論は、中等教育で「確率・統計」と一括りに呼ばれていたように [36][37]、統計学と非常に深いかかわりがある [38][39][40][41][42][43][44]。推計統計学ではデータ（標本）が母集団からランダムに取り出されるという前提に立っている。すなわち母集団を構成する要素はそれぞれ"出やすさ"をもっており、それに従ってランダムに取り出されるという立場である。"出やすさ"はまさしく（古典的な）確率であり、母集団はある確率分布に従っていると数学的に表現できる。標本に基づいた母集団確率分布のパラメータ推定（統計的推論）は推計統計学の花形であり、これらは確率論の用語や理論を用いて表現・研究されている。

x ∼ p t r u e ( x 。 θ ) {\displaystyle x\sim p_{true}(x|\theta )} : 標本 x は、パラメータ θ をもつ確率分布 ptrue に従う母集団からサンプリングされる。
機械学習

機械学習では、機械（数理モデル）がデータを利用してその性能を向上させようとする [45][46][47]。数理モデルとして確率分布を含むモデルを考えた場合、このモデルがデータを生成する過程は、まさしく推測統計学における母集団からのサンプリング（確率分布で表現された母集団モデルからデータという標本を取り出す過程）といえる。そしてこのモデルの学習とは、データからの正確な確率モデル推定 = 標本からの母集団パラメータ推定であり、すなわち統計的推論と同義である。このように統計学と機械学習には深い関係がある [48]（詳しくは機械学習 § 統計的機械学習）
再現性の危機詳細は「再現性の危機」を参照

一度信頼できる統計データが取れさえすれば統計学的分析は数学的に行えるが、信頼できる統計データの収集はとても難しい。統計学の源流は各国が人口その他を把握するために行った国勢調査に求められるが、古代・中世を通じほとんどの国家では中央権力の力が弱く、ローマ帝国で行われたセンサス [49]や中国歴代王朝の人口調査 [50]等の例外はあるものの、特に大国においてこうした調査を行うことはほぼ不可能だった。

こうした調査が実行可能となるのは各国の中央政府の行政能力の向上した18世紀から19世紀初頭にかけてであり、この時期に初めて近代的な意味での統計学が成立することとなった [51]。現代においても、たとえば行政能力の脆弱なブラックアフリカ諸国においては統計局の予算・人員の不足が深刻であり、統計データの不正確さが指摘されている [52]。

また、統計を取る人の主義主張によって統計値が大きく異なることも多々あり、ロナルド・レーガン政権は当時アメリカにホームレスが30万人しかいないと主張したが、活動家たちはその10倍の300万人いると主張した [53]。

例えば、質問の仕方一つで結果がガラリと変わってしまう。強姦に関するある調査で、女子大生に「男性からアルコールや薬物を飲まされて、望まない性交をしたことがありますか」と質問することで「女子大生の1/4が強姦されたことがある」という結論を出したが、批判者たちはこの調査で強姦体験者と認定された女子大生たちを集めて再調査したところ、その3/4がその体験を強姦だと考えていないことが分かった [53]。

また、暗数の考慮にも主観がつきまとってしまう。暗数とは「統計に出ない値」のことで、例えば強姦のような犯罪はそれがタブーであるために警察に届けないことも多く、したがって統計に表れない。それには統計を正しく読み解くには暗数を考慮する必要があるが、統計値を多く見積もりたい人は意識的・無意識的に暗数を多く見積もってしまう可能性があり、逆に統計値を少なく見積もりたい人は暗数を少なく見積もってしまう可能性がある。

正しい統計データから正しい統計操作を行ってもなお騙すことが可能である。たとえば、ここ四十数年で少年犯罪は1/4になっているが、最近10年では微増している。この時、微増となっている最近10年分のデータだけを提示して、「近年少年犯罪は増加している」という主張をすれば、これは成立することになる [54]。さらに、グラフの縦軸（=犯罪数の軸）をわざと縦長に描くことで犯罪数が急上昇しているかのように見せかけることも可能である。
反証可能性

カール・ポパーの反証可能性理論が、反証可能性のない理論は非科学的であると主張したため、反証可能性のない統計理論が存在する場合、それは非科学的であるとする論文があることに留意すべきである [55]。

Size:103 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef