確率密度関数
[Wikipedia|▼Menu]
標準正規分布箱ひげ図および確率密度関数 N(0, σ2)

確率密度関数(かくりつみつどかんすう、(: probability density function、PDF)とは、確率論において、連続型確率変数がある値をとるという事象の確率密度を記述する関数である。確率変数がある範囲の値をとる確率を、その範囲にわたって確率密度関数を積分することにより得ることができるよう定義される。確率密度関数の値域は非負の実数であり、定義域全体を積分すると1である。

例えば単変数の確率密度関数を平面上のグラフに表現して、x軸に確率変数の値を、y軸に確率密度を採った場合、求めたい範囲(x値)の下限値と上限値での垂直線と、変数グラフ曲線と y = 0 の直線とで囲まれる範囲の面積が確率になる。

「確率分布関数」 (probability distribution function)[1] あるいは「確率関数」 (probability function)[2] という用語は、具体的に何を指しているか現時点でも定義が曖昧であり、確率論研究者や統計学者の間では、その意味が標準的でないとされる場合がある。

他の資料に拠れば「確率密度関数」は値の集合に対する関数として定義されたり、累積分布関数との関係で言及されたり、確率質量関数の意味で使われたりする。さらには、密度関数 (density function) という用語が確率質量関数の意味で用いられている場合もある[3]

例として、寿命が4?6時間程度のバクテリアがいると仮定する。この時、特定のバクテリアが丁度 5時間で死亡する確率はどれ位だろうか? 答えは0%である。およそ5時間で寿命を迎えるバクテリアはたくさん居るが、正確に5.0000000000…時間で死ぬことはない。

一方で、5?5.01時間で死亡する確率はどうだろうか? 例えば、これが2%だとする。では、その.mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output .sfrac.tion,.mw-parser-output .sfrac .tion{display:inline-block;vertical-align:-0.5em;font-size:85%;text-align:center}.mw-parser-output .sfrac .num,.mw-parser-output .sfrac .den{display:block;line-height:1em;margin:0 0.1em}.mw-parser-output .sfrac .den{border-top:1px solid}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px}1/10の範囲の5?5.001時間である確率は? 答えはおよそ 2% × 1/10 = 0.2% となる。さらにその 1/10 の範囲の5?5.0001時間である確率は、およそ0.02%である。

上記の3例において、『「特定の時間範囲内に死亡する確率」を「その範囲の長さ」で割った値』に着目すると、1時間につき 2 に定まることが分かる。例えば、5?5.01時間の0.01時間の範囲でバクテリアが死亡する確率は0.02であり、確率 0.02 ÷ 0.01時間 = 2時間−1 である。この2時間−1(毎時200%)という量を、5時間時点での確率密度と呼ぶ。

従って、「バクテリアの寿命が5時間である確率」を問われた時、真の答えは0%であるが、より実用的には、2時間−1 dt であると言える。これは、無限小の時間範囲 dt 内で、バクテリアが死亡する確率である。例えば、丁度5時間?5時間 + 1ナノ秒の寿命である確率は、2時間−1 × 1ナノ秒 ? 6 × 10−13 である。

これを確率密度関数 f を用いて、f(5時間)= 2時間−1 と表現することができる。f を任意の時間範囲(微小に限らない)で積分することで、当該時間範囲内でバクテリアの寿命が尽きる確率を求めることができる。
絶対連続確率分布での定義「連続確率分布」も参照

絶対連続確率分布では確率密度関数が存在する。確率変数 X の確率密度関数 fX を考え、fX が非負のルベーグ可積分な関数であるとする。ここで、 P ⁡ ( a ≤ X ≤ b ) = ∫ a b f X ( x ) d x {\displaystyle \operatorname {P} (a\leq X\leq b)=\int _{a}^{b}f_{X}(x)\,dx}

である。従って、もし FX を X の累積分布関数とすると、 F X ( x ) = ∫ − ∞ x f X ( u ) d u {\displaystyle F_{X}(x)=\int _{-\infty }^{x}f_{X}(u)\,du}

となり、 f X ( x ) = d d x F X ( x ) {\displaystyle f_{X}(x)={\frac {d}{dx}}F_{X}(x)}

となる。直観的に、微小区間 [x, x + dx] に含まれる値を X がとる確率は fX(x)dx であると分かる。
正式な定義(この定義は確率の公理によりあらゆる確率分布に拡張できる。)

完全加法族 ( X , A ) {\displaystyle ({\mathcal {X}},{\mathcal {A}})} (通常、Rn に可測集合としてボレル集合を考えたもの)中に存在する確率変数 X は、 ( X , A ) {\displaystyle ({\mathcal {X}},{\mathcal {A}})} 中に測度 X?P で確率分布する。 ( X , A ) {\displaystyle ({\mathcal {X}},{\mathcal {A}})} 中の標準測度 μ に関する X の密度は、ラドン=ニコディムの定理より f = d X ∗ P d μ {\displaystyle f={\frac {dX_{*}P}{d\mu }}}

である。これは、f は次の性質を持つ任意の可測関数であることを意味する。あらゆる可測集合 A ∈ A {\displaystyle A\in {\mathcal {A}}} に対して、 P ⁡ ( X ∈ A ) = ∫ X − 1 A d P = ∫ A f d μ {\displaystyle \operatorname {P} (X\in A)=\int _{X^{-1}A}\,dP=\int _{A}f\,d\mu }
注意点

上記の連続単変数の場合は、標準測度はルベーグ測度である。離散確率変数における確率質量関数は標本空間(通常、整数全体の集合またはその部分集合)内での数え上げ測度に対応する。

任意の測度で密度が定義できる訳ではないことに注意。例えば、連続確率分布に数え上げ測度を対応させることはできない。さらに、対応する測度が存在した時、密度はほとんど至るところで一意的である。
詳細

確率質量関数とは異なり、確率密度関数は1より大きな値を取りうる。例えば、区間 [0, 1/2] の連続一様分布の確率密度関数は範囲 0 ? x ? 1/2 で f(x) = 2、その他の範囲で f(x) = 0 である。

正規分布は下記の確率密度関数を持つ。 f ( x ) = 1 2 π e − x 2 / 2 {\displaystyle f(x)={\frac {1}{\sqrt {2\pi }}}\;e^{-x^{2}/2}}

確率変数 X とその確率密度関数 f が与えられた時、X の期待値は(値が存在する場合は)次の式で求められる。 E ⁡ [ X ] = ∫ − ∞ ∞ x f ( x ) d x {\displaystyle \operatorname {E} [X]=\int _{-\infty }^{\infty }x\,f(x)\,dx}

全ての確率分布が確率密度関数を持つとは限らない。離散型確率変数が持たない他にも、カントール分布連続確率分布であるにもかかわらず、範囲内のあらゆる点で正の確率を持たないため、確率密度関数を持たない。

確率分布はその累積分布関数 F(x) が絶対連続である場合にのみ確率密度関数 f を持つ。この場合 F はほとんど至るところで微分可能で、f は F のラドン=ニコディムの定理である: d d x F ( x ) = f ( x ) {\displaystyle {\frac {d}{dx}}F(x)=f(x)}

累積分布関数が連続の場合、確率変数がある値 a をとる確率 P(X = a) は常に0である。

2つの確率密度関数 f, g がほとんど至るところで等しい時、2つは正確に同じ確率分布から採られたと言える。

統計力学の分野では、累積分布関数のラドン=ニコディム微分と確率密度関数との関係を非形式的に書いた以下の式が確率密度関数の定義として用いられる。

dt が無限小の時、X が区間(t, t + dt)に含まれる確率は f(t)dt に等しい。 P ⁡ ( t < X < t + d t ) = f ( t ) d t . {\displaystyle \operatorname {P} (t<X<t+dt)=f(t)\,dt.}
離散分布と連続分布との結合

ディラックのデルタ関数を用いると、ある種の離散型確率変数によって連続型確率変数および離散型確率変数の確率密度関数を統一的に表現することができる。試しに、2つの値しか採らない離散型確率変数を考える。例えばラーデマッヘル分布(英語版)―すなわちそれぞれ 1/2 の確率で −1 または 1 の値を採る分布―である。この変数の確率の密度は f ( t ) = 1 2 ( δ ( t + 1 ) + δ ( t − 1 ) ) {\displaystyle f(t)={\frac {1}{2}}(\delta (t+1)+\delta (t-1))}


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:71 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef