情報量に対する直感的要請には「発生確率が低いほど大きく(単調減少性)」「確率に関して連続的に変化し(連続性)」「独立同時事象の情報量が周辺事象の情報量和に等しい(加法性)」の三条件が挙げられる。この3条件を満たす関数はコーシーの函数方程式を利用することで C log p {\displaystyle C\log p} と一意に求まる。よって情報量の定義は上記の3条件から一意に導出できる。典型的には対数の底を2としてp=1/2で1となるようにCを設定(C=-1)する。 ( Ω , F , P ) {\displaystyle (\Omega ,{\mathcal {F}},P)} を確率空間とする。全事象 Ω の分割 A i {\displaystyle A_{i}} が与えられたとき[2]、各事象 A i ∈ Ω {\displaystyle A_{i}\in \Omega } の自己情報量 I ( A i ) {\displaystyle I(A_{i})} で定義した値 H ( P ) = ∑ A i ∈ Ω P ( A i ) I ( A i ) = − ∑ A i ∈ Ω P ( A i ) log P ( A i ) {\displaystyle H(P)=\sum _{A_{i}\in \Omega }P(A_{i})\ I(A_{i})=-\sum _{A_{i}\in \Omega }P(A_{i})\log P(A_{i})} を確率測度 P のエントロピー H(P) と呼ぶ(平均情報量、シャノン情報量、情報論のエントロピーとも)。ただし、ここで P ( A i ) = 0 {\displaystyle P(A_{i})=0} のときは、 P ( A i ) log P ( A i ) = 0 {\displaystyle P(A_{i})\log P(A_{i})=0} とみなす。これは lim p → 0 + p log p = 0 {\displaystyle \lim _{p\to 0+}{p\log p}=0} であることによる。 また、離散型確率変数 X が確率分布 P に従う場合には、 X のエントロピー H(X) を自己情報量 I の期待値によって定義する。すなわち、 H ( X ) = E P [ I ( X ) ] = − ∑ x ∈ X f X ( x ) log f X ( x ) {\displaystyle H(X)=\mathbb {E} _{P}[I(X)]=-\sum _{x\in X}f_{X}(x)\log f_{X}(x)} である[3]。ここで fX は X の確率質量関数である[4]。 0 ≦ I ( ⋅ ) {\displaystyle 0\leqq I(\cdot )} より、エントロピーは常に非負である。 確率変数 X と Y の組 (X, Y) も確率変数とみなせる。この確率変数の値の発生確率すなわち同時確率を P X , Y ( X , Y ) {\displaystyle P_{X,Y}(X,Y)} とすると、 (X, Y) のエントロピー H ( X , Y ) {\displaystyle H(X,Y)} は H ( X , Y ) = E P X , Y [ I ( X , Y ) ] = − ∑ ( x , y ) ∈ ( X , Y ) P X , Y ( x , y ) log P X , Y ( x , y ) {\displaystyle H(X,Y)=\mathbb {E} _{P_{X,Y}}[I(X,Y)]=-\sum _{(x,y)\in (X,Y)}P_{X,Y}(x,y)\log P_{X,Y}(x,y)} になる。これを結合エントロピーと呼ぶ。 (X, Y) が互いに独立な確率変数である場合には、 H ( X , Y ) {\displaystyle H(X,Y)} は H ( X ) + H ( Y ) {\displaystyle H(X)+H(Y)} に一致する。すなわち、全体の情報量 H ( X , Y ) {\displaystyle H(X,Y)} は、それぞれの確率変数の情報量の和である。 しかし、 X と Y が互いに独立ではない場合は、 H ( X , Y ) {\displaystyle H(X,Y)} と H ( X ) + H ( Y ) {\displaystyle H(X)+H(Y)} は一致せず、前者より後者の方が大きい値になる。両者の情報量の差を相互情報量と呼び、 I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) {\displaystyle I(X,Y)=H(X)+H(Y)-H(X,Y)} で表す。相互情報量は常に非負の値になる。 事象B が生じているという条件下における事象A の条件付き情報量を − log Pr ( A ∣ B ) {\displaystyle -\log \Pr(A\mid B)} によって定める。確率変数 X が与えられたとき、事象「 X = x {\displaystyle X=x} 」の条件付き情報量 − log Pr ( X = x ∣ B ) {\displaystyle -\log \Pr(X=x\mid B)} の x に関する加重平均を条件付きエントロピーと言い、 H ( X ∣ B ) = E P X ∣ B [ I ( X ∣ B ) ] = − ∑ x ∈ X Pr ( X = x ∣ B ) log Pr ( X = x ∣ B ) {\displaystyle H(X\mid B)=\mathbb {E} _{P_{X\mid B}}[I(X\mid B)]=-\sum _{x\in X}\Pr(X=x\mid B)\log \Pr(X=x\mid B)} で表す。 さらに確率変数 Y が与えられたとき、事象「 Y = y {\displaystyle Y=y} 」が生じているという条件下における条件付きエントロピー H ( X ∣ Y = y ) {\displaystyle H(X\mid Y=y)} の y に関する加重平均 H ( X ∣ Y ) = ∑ y ∈ Y Pr ( Y = y ) H ( X ∣ Y = y ) = − ∑ x ∈ X , y ∈ Y Pr ( X = x , Y = y ) log Pr ( X = x ∣ Y = y ) {\displaystyle H(X\mid Y)=\sum _{y\in Y}\Pr(Y=y)H(X\mid Y=y)=-\sum _{x\in X,y\in Y}\Pr(X=x,Y=y)\log {\Pr(X=x\mid Y=y)}} も、やはり条件付きエントロピーと呼ぶ。 あるコインを投げたときに表が出る確率を p {\displaystyle p} 、裏が出る確率を 1 − p {\displaystyle 1-p} とする。このコインを投げたときに得られる平均情報量(エントロピー)は、 H ( X ) = − p log p − ( 1 − p ) log ( 1 − p ) {\displaystyle H(X)=-p\log {p}-(1-p)\log {(1-p)}} である。 この関数 f ( p ) = − p log p − ( 1 − p ) log ( 1 − p ) {\displaystyle f(p)=-p\log {p}-(1-p)\log {(1-p)}} をエントロピー関数と呼ぶ。 図を見ると分かるように、 p = 0 {\displaystyle p=0} と p = 1 {\displaystyle p=1} では H はゼロである。つまり、コインを投げる前から裏または表が出ることが確実に分かっているときに得られる平均情報量は、ゼロである。 H が最大になるのは p = 1 / 2 {\displaystyle p=1/2} のときであり、一般にすべての事象(できごと)が等確率になるときにエントロピーが最大になる。 実数値を取る確率変数Xの確率密度関数をp(x)とするとき、Xのエントロピーを h ( X ) = − ∫ − ∞ ∞ p ( x ) log p ( x ) d x {\displaystyle h(X)=-\int _{-\infty }^{\infty }p(x)\log p(x)dx}
平均情報量(エントロピー)
エントロピーの基本的性質
情報量は確率だけによって決まる。
情報量は非負の値または無限大を取る。
nビットのビット列の空間(情報源)から(一様ランダムとは限らない方法で)ランダムにビット列を選んだときのエントロピーは、n以下になる。エントロピーがnになる必要十分条件は、ビット列が一様ランダムに選ばれることである。
確率変数XとYが独立である必要十分条件は、 H ( X ) + H ( Y ) = H ( X , Y ) {\displaystyle H(X)+H(Y)=H(X,Y)} が成立することである。
コイン投げの例
連続系のエントロピー
Size:68 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)』
担当:undef