この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方)
出典検索?: "尤度関数"
尤度関数(ゆうどかんすう、英: likelihood function)とは統計学において、ある前提条件に従って結果が出現する場合に、逆に観察結果からみて前提条件が「何々であった」と推測する尤もらしさ(もっともらしさ)を表す数値を、「何々」を変数とする関数として捉えたものである。また単に尤度ともいう。
その相対値に意味があり、最尤法、尤度比検定などで用いられる。 B = b であることが確定している場合に、 A が起きる確率(条件付き確率)を P ( A ∣ B = b ) {\displaystyle P(A\mid B=b)} とする。このとき、逆に A が観察で確認されていることを基にして、上記の条件付き確率を変数 b の関数として尤度関数という。また一般には、それに比例する関数からなる同値類 L ( b ∣ A ) = α P ( A ∣ B = b ) {\displaystyle L(b\mid A)=\alpha P(A\mid B=b)} をも尤度関数という(ここで α {\displaystyle \alpha } は任意の正の比例定数)。 重要なのは数値 L ( b 。 A ) {\displaystyle L(b|A)} 自体ではなく、むしろ比例定数を含まない尤度比 L ( b 2 ∣ A ) / L ( b 1 ∣ A ) {\displaystyle L(b_{2}\mid A)/L(b_{1}\mid A)} である。もし L ( b 2 ∣ A ) / L ( b 1 ∣ A ) > 1 {\displaystyle L(b_{2}\mid A)/L(b_{1}\mid A)>1} ならば、 b 1 {\displaystyle b_{1}} と考えるよりも b 2 {\displaystyle b_{2}} と考えるほうが尤もらしい、ということになる。 B {\displaystyle B} が与えられた場合には、それから A {\displaystyle A} について推論するのには条件付き確率 P ( A ∣ B ) {\displaystyle P(A\mid B)} を用いる。逆に、 A {\displaystyle A} が与えられた場合に、それから B {\displaystyle B} について推論するのには条件付き確率 P ( B ∣ A ) {\displaystyle P(B\mid A)} (事後確率)を用いるが、これは尤度関数である P ( A ∣ B ) {\displaystyle P(A\mid B)} あるいは P ( A ∣ B ) / P ( A ) {\displaystyle P(A\mid B)/P(A)} から、次のベイズの定理によって求められる: P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) {\displaystyle P(B\mid A)={\frac {P(A\mid B)~P(B)}{P(A)}}} ただし、尤度関数は後に示すように確率密度関数とは別の概念である。 コインを投げるときに、表が出る('H')確率が pH であれば、2回の試行で2回とも表が出る('HH')確率は pH2 である。 pH = 0.5 であれば、2回とも表が出る確率は0.25である。このことを次のように示す: P ( HH ∣ p H = 0.5 ) = 0.25 {\displaystyle P({\mbox{HH}}\mid p_{H}=0.5)=0.25} これのもう1つの言い方として、「観察結果が'HH'ならば pH = 0.5 の尤度は 0.25である」、つまり L ( p H = 0.5 ∣ HH ) = P ( HH ∣ p H = 0.5 ) = 0.25 {\displaystyle L(p_{H}=0.5\mid {\mbox{HH}})=P({\mbox{HH}}\mid p_{H}=0.5)=0.25} . と言える。一般には L ( p H = x ∣ HH ) = P ( HH ∣ p H = x ) = x 2 {\displaystyle L(p_{H}=x\mid {\mbox{HH}})=P({\mbox{HH}}\mid p_{H}=x)=x^{2}} と書ける。しかしこれを、「観察値が0.25ならば、1回投げて表の出る確率は pH = 0.5」という意味にとってはならない。極端な場合を例にとると、「観察結果が'HH'ならば pH = 1 の尤度は1」とはいえる。しかし明らかに、観察値が1だからといって表の出る確率 pH = 1 ということはない。'HH'という事象は pH の値が0より大きく1以下のいくつであっても起こりうるのだ。 L ( p H = x ∣ HH ) {\displaystyle L(p_{H}=x\mid {\mbox{HH}})} の値はxが1に近づくほど大きくなる(しかし現実にはpH はおよそ0.5である場合が多い)。観察はたった2回の試行に基づくもので、それからとりあえず「pH = 1 が尤もらしい」といっているにすぎない。また尤度関数は確率密度関数ではなく、積分しても一般に1にはならない。上の例では pH に関する[0, 1]区間の尤度関数の積分は1/3で、これからも尤度密度関数を pH に対する確率密度関数としては解釈できないことがわかる。 統計学では標本の観察結果から母集団の分布を表現する母数(パラメータ)を求めることが重要であるが、母集団の母数がある特定の値であることを前提条件として観察結果が得られると考え、統計学の問題に尤度の概念を適用できる。尤度関数は特に最尤法、尤度比検定で重要な意味を持ち、尤度を最大にするという原理により多くの統計学的推定法が導かれる。次のような母数を含む確率密度関数族を考える: f ( x ∣ θ ) {\displaystyle f(x\mid \theta )} ここで x が確率変数、 θ が母数である。尤度関数は L ( θ ∣ x ) = f ( x ∣ θ ) {\displaystyle L(\theta \mid x)=f(x\mid \theta )} ここで x は実験の観察値である。θ を定数として、 f(x 。θ) を x の関数として見たときには、これは確率密度関数であり、逆に x を定数として θ の関数として見たときには、尤度関数である。この場合も尤度を、観察標本が与えられたときに「この母数が正しい」という確率と混同してはいけない。観察結果はあくまでも少数の標本にすぎず、仮説の尤度を仮説の確率として解釈するのは危険である。 負の対数尤度(英: negative log-likelihood, NLL)は尤度関数の対数に − 1 {\displaystyle -1} を掛けたものである。すなわち次の式で表される関数である: N L L ( θ ) = − log L ( θ ∣ x ) = − log p ( x ∣ θ ) {\displaystyle \mathrm {NLL} (\theta )=-\log {L(\theta \mid x)}=-\log {p(x\mid \theta )}} 密度関数の値域が 0 ≦ p ( x ) ≦ 1 {\displaystyle 0\leqq p(x)\leqq 1} であるため、NLLの値域は + ∞ ≧ p ( x ) ≧ 0 {\displaystyle +\infty \geqq p(x)\geqq 0} となる。尤度関数が「 θ {\displaystyle \theta } の尤もらしさ」を直観的に表現するのに対し、NLLは「 θ {\displaystyle \theta } のありえなさ」を直観的に表現する。 対数は単調増加し − 1 {\displaystyle -1} は大小を逆転させるため、尤度関数が最大値を取る θ {\displaystyle \theta } とNLLが最小値を取る θ {\displaystyle \theta } は一致する。ゆえに最尤推定、ひいては最尤推定に基づく機械学習の損失関数としてNLLはしばしば用いられる( argmax θ L ( θ ) {\displaystyle \operatorname {argmax} _{\theta }L(\theta )} を argmin θ N L L ( θ ) {\displaystyle \operatorname {argmin} _{\theta }\mathrm {NLL} (\theta )} で代用する)。 NLLの実現値 N L L ( θ = θ i ) {\displaystyle \mathrm {NLL} (\theta =\theta _{i})} は標本 x {\displaystyle x} の自己情報量と等価である(式が同一)。直観的には、この実現値が表現する「 θ i {\displaystyle \theta _{i}} 下で x {\displaystyle x} が得られることのありえなさ」がまさに「驚き具合(サプライザル)」であることからわかる。
概要
簡単な例
母数を含むモデルの尤度関数
負の対数尤度
Size:41 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)』
担当:undef