統計学
[Wikipedia|▼Menu]
□記事を途中から表示しています
[最初から表示]

確率論は、中等教育で「確率・統計」と一括りに呼ばれていたように[36][37]、統計学と非常に深いかかわりがある[38][39][40][41][42][43][44]。推計統計学ではデータ(標本)が母集団からランダムに取り出されるという前提に立っている。すなわち母集団を構成する要素はそれぞれ"出やすさ"をもっており、それに従ってランダムに取り出されるという立場である。"出やすさ"はまさしく(古典的な)確率であり、母集団はある確率分布に従っていると数学的に表現できる。標本に基づいた母集団確率分布のパラメータ推定(統計的推論)は推計統計学の花形であり、これらは確率論の用語や理論を用いて表現・研究されている。

x ∼ p t r u e ( x 。 θ ) {\displaystyle x\sim p_{true}(x|\theta )} : 標本 x は、パラメータ θ をもつ確率分布 ptrue に従う母集団からサンプリングされる。
機械学習

機械学習では、機械(数理モデル)がデータを利用してその性能を向上させようとする[45][46][47]。数理モデルとして確率分布を含むモデルを考えた場合、このモデルがデータを生成する過程は、まさしく推測統計学における母集団からのサンプリング(確率分布で表現された母集団モデルからデータという標本を取り出す過程)といえる。そしてこのモデルの学習とは、データからの正確な確率モデル推定 = 標本からの母集団パラメータ推定であり、すなわち統計的推論と同義である。このように統計学と機械学習には深い関係がある[48](詳しくは 機械学習 § 統計的機械学習
再現性の危機詳細は「再現性の危機」を参照

一度信頼できる統計データが取れさえすれば統計学的分析は数学的に行えるが、信頼できる統計データの収集はとても難しい。統計学の源流は各国が人口その他を把握するために行った国勢調査に求められるが、古代・中世を通じほとんどの国家では中央権力の力が弱く、ローマ帝国で行われたセンサス[49]や中国歴代王朝の人口調査[50]等の例外はあるものの、特に大国においてこうした調査を行うことはほぼ不可能だった。

こうした調査が実行可能となるのは各国の中央政府の行政能力の向上した18世紀から19世紀初頭にかけてであり、この時期に初めて近代的な意味での統計学が成立することとなった[51]。現代においても、たとえば行政能力の脆弱なブラックアフリカ諸国においては統計局の予算・人員の不足が深刻であり、統計データの不正確さが指摘されている[52]

また、統計を取る人の主義主張によって統計値が大きく異なることも多々あり、ロナルド・レーガン政権は当時アメリカにホームレスが30万人しかいないと主張したが、活動家たちはその10倍の300万人いると主張した[53]

例えば、質問の仕方一つで結果がガラリと変わってしまう。強姦に関するある調査で、女子大生に「男性からアルコール薬物を飲まされて、望まない性交をしたことがありますか」と質問することで「女子大生の1/4が強姦されたことがある」という結論を出したが、批判者たちはこの調査で強姦体験者と認定された女子大生たちを集めて再調査したところ、その3/4がその体験を強姦だと考えていないことが分かった[53]

また、暗数の考慮にも主観がつきまとってしまう。暗数とは「統計に出ない値」のことで、例えば強姦のような犯罪はそれがタブーであるために警察に届けないことも多く、したがって統計に表れない。それには統計を正しく読み解くには暗数を考慮する必要があるが、統計値を多く見積もりたい人は意識的・無意識的に暗数を多く見積もってしまう可能性があり、逆に統計値を少なく見積もりたい人は暗数を少なく見積もってしまう可能性がある。

正しい統計データから正しい統計操作を行ってもなお騙すことが可能である。たとえば、ここ四十数年で少年犯罪は1/4になっているが、最近10年では微増している。この時、微増となっている最近10年分のデータだけを提示して、「近年少年犯罪は増加している」という主張をすれば、これは成立することになる[54]。さらに、グラフの縦軸(=犯罪数の軸)をわざと縦長に描くことで犯罪数が急上昇しているかのように見せかけることも可能である。
反証可能性

カール・ポパーの反証可能性理論が、反証可能性のない理論は非科学的であると主張したため、反証可能性のない統計理論が存在する場合、それは非科学的であるとする論文があることに留意すべきである[55]
教育

統計学は「実学」に端を発しており、市民社会以降世界に普及した「市場経済」を牽引した原動力とも言える学問である。そのため、自然科学社会科学人文科学の各分野の垣根を越えて分化かつ拡大を続ける中、基礎において汎用性が高い学問の構造を有している[要出典]。

社会生活の至る所で統計技術の適用が貢献できる場面がある以上、統計学とその適用方法を学習する上では社会の実態に即して頻繁に技法を適用してみることが重要であり、そのように出来るためには何よりまず統計処理を身近で制限無く実施できるような「統計処理環境」の備えが必要である。

PCソフトウェアインターネットなどのIT環境が急速に進化低廉化して普及したことで身近に統計処理環境を持ちうるようになり、なおかつ莫大な統計情報がインターネットを通じて公開されているため、研究・調査・学習の処理材料にも不自由しない。

実際21世紀に入って以降は、それまでの確率論と数理統計学を重点に置いたカリキュラムに加え、データを処理して求める答えに近づく「データ解析」のスキルが教育されるようになっている(データサイエンス論)。

元来コンピュータを使った数値解析に際してはまず、IEEE 754規格にあるように端数処理誤差が暗黙のうちに生じることや、有効数字の概念の認識が重要で、子供のころ算数で学んだような計算結果にはならないことがあることを知っておかねばならない。さらに、統計計算では殊に重要な乱数列についても、コンピュータ上で用いるのは擬似乱数であることや、良質な疑似乱数生成方式「メルセンヌ・ツイスタ」を計算ソフトウェアや開発用言語の全てが必ず備えているわけではないこと、暗号論的乱数はさらにまた別の乱数概念であること、なども実は大切な基礎知識である。

人が得意とするパターン認識の力を積極的に用いるため、統計データの「グラフ化」が古来常套手段として用いられているが、ITの支援を得ることで大量のデータを様々な形に、しかも瞬時にグラフ化(あるいは『可視化』)することが可能となった。そのためのグラフ作成ソフトも多数存在するが、その他の数値解析ソフトウェア数式処理システム、そして殊に下記のような統計アプリケーションではグラフ化するための機能が充実している。

一方、近年オフィスソフト機能等で極端なグラフ装飾を施すことが横行している。この結果として、例えば3Dグラフなどを安易に用いると遠近感や区間面積などから表示すべき真の数量とは異なった認識を受け手に与える事がある。本来3Dグラフ表示は人の空間認識力を活かし得る優れた表現手法であるが、意味なく勢い付け等で用いるのは本来的な視覚化からは退行するばかりか、意図して受け手の誤認識を誘導する事も可能となる。「グラフは直感的に分かるから全て善である」と一般に認識されていることや、前出「統計の困難さ」にある内容をふまえると、統計の視覚化とその解釈に関するリテラシ教育は初等段階から特に注意を要する。

上記のように、用いる統計処理環境ごとに適用分野・目的・方法論・使用者との相性などは異なる。そういった統計処理環境固有の特性なども含めて、いかなる道具もそうであるように、数多く体験の機会を作るほかに理解の早道は無い。

広く普及した表計算ソフトが統計処理・グラフ表現機能を持っているので、誰でも手軽に統計処理入門体験は出来る。しかしあくまでビジネスソフトであり、科学技術ソフトではないExcelの計算の信頼性については常に批判が絶えない[56][57][58][59](Excelに限らず普及している表計算ソフトウェアはどれも信頼に足る統計計算はできないとの報告もある[60])。

近年では研究・教育機関が公開するオープンソース自由ソフトウェアの中からきわめて優秀な計算ソフトウェアが育っており、プロプライエタリソフトの問題点顕在化により関心の高まった統計技術資産の持続可能性という観点からも、統計教育にあたってはこれらオープンソースソフトウェアの積極的な活用が推奨される。

統計の研究・教育に適した代表的なフリーソフトウェア

アプリケーション

R言語 - GNU GPLフリーウェアの統計用数値解析ソフトウェア[61]


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:103 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef