DCG
[Wikipedia|▼Menu]

DCG(減損累積利得、げんそんるいせきりとく、Discounted cumulative gain)は、ランキング品質の評価指標である。情報検索において、DCG はウェブ検索エンジンアルゴリズムや情報検索に関連したアプリケーションの適合性に対する有用性を評価するために使用される。DCG は検索エンジンの検索結果に含まれる文書の適合性を段階的に評価することで、検索結果リストにおける文書の位置(順位)によって、その文書の有用性、すなわち利得を測定する。この利得は、結果リストの上位から下位に向かって累積され、下位の文書ごとに各結果までの利得が割り引かれる[1]
概要

DCG と DCG の類似指標が使用される場面は次の2つが想定される。
関連性の高い文書は、検索エンジンの結果リストの早い段階で表示される(ランクが高い)と、より有用性が高くなる。

関連性の高い文書は、適合性の低い文書よりも有用であり、その結果、適合性の低い文書よりも有用となる。

DCG は CG(累積利得)から拡張した指標である。
CG(累積利得)

CG(累積利得)は、検索結果の全結果のリストに対して段階的に適合性の評価を与え、それらを総和した指標である。DCG の前身概念である CG は、結果リストにおける結果の順位を、検索結果集合の有用性が考慮された結果リストが含まれない。ある順位 p {\displaystyle p} での CG は: C G p = ∑ i = 1 p r e l i {\displaystyle \mathrm {CG_{p}} =\sum _{i=1}^{p}rel_{i}}
と定義する。

上記の r e l i {\displaystyle rel_{i}} は各順位 i {\displaystyle i} における文書の適合度を表す。

CGで算出された値は、検索結果に基づくランキングの順序の影響を受けない。つまり、適合度の高い文書 d i {\displaystyle d_{i}} が適合度の低い文書 d j {\displaystyle d_{j}} より高い順位に並び変わったとしても、CGの値は変動しない(ただし i , j ≤ p {\displaystyle i,j\leq p} )。検索結果の有用性を測る指標は上記の2つの前提に基づいて、一般的に CG より (n)DCG が使用されている。

CG は評価尺度が二値分類であるとき、適合率と等しくなるため、"Graded Precision"(段階的適合率)と呼ばれることがある。
DCG(減損累積利得)

DCG における前提として、検索結果リストの下位に表示される適合性の高い文書にはペナルティを与えて、評価値は検索結果のランキングに比例して対数スケールで減少させることである。

最初期に提唱された、ある順位 p {\displaystyle p} まで累積した DCG は次のように定義される[1]: D C G p = ∑ i = 1 p r e l i log 2 ⁡ ( i + 1 ) = r e l 1 + ∑ i = 2 p r e l i log 2 ⁡ ( i + 1 ) {\displaystyle \mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}=rel_{1}+\sum _{i=2}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}}

DCG が提唱された当時は、DCG の減損方法に対数を用いる妥当性は[2]、削減具合がなめらかであったこと以外に理論的に証明されていなかった。しかしワンら (2013)[3] によって nDCG(正規化減損累積利得)における対数による減損の妥当性が保証された。これは実質的に異なるランキングを評価する関数を対照的に、首尾一貫方法でそれらの関数による NDCG が優れているかを求めることで示した。

また2005年に提唱された適合度の高い文書に対しより高い評価を与えることを重視した DCG[4] が代替的に使用されている[5]: D C G p = ∑ i = 1 p 2 r e l i − 1 log 2 ⁡ ( i + 1 ) {\displaystyle \mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {2^{rel_{i}}-1}{\log _{2}(i+1)}}}

後者の式は一般的なウェブ検索企業[6][7]や Kaggle といったデータサイエンスの競技プラットフォームで用いらている指標となっている[8]

これら2つの DCG の式は文書に対する適合度が r e l i ∈ { 0 , 1 } {\displaystyle rel_{i}\in \{0,1\}} の二値(英語版)で与えられるとき等しくなる[2]:320。

なおクロフトら (2010) やバージェスら (2005) は下記の DCG 式の対数部分は自然対数として定義しているが、ここでは 2 を底とする対数を用いた DCG を定義している。第一式の DCG は対数の底の値によって nDCG の値は大きく変動しないが、第二式の DCG においては対数の底の値によって nDCG は大きな影響を受ける。これは明らかに、上記の DCG 式は対数の底によって割り引かれる程度が変動する。
nDCG(正規化減損累積利得)

検索結果の数は、クエリごとに数が異なる。あるクエリから次のクエリにおける検索エンジンの性能を比較するときに、ある順位 p {\displaystyle p} までの利得を累積する DCG 単体で性能を測定することはできないため、選択したある順位 p {\displaystyle p} までの累積利得を正規化する必要がある。DCG を正規化するために、コーパス上でクエリに関連する文書を DCG の値が最大化されるように順位 p {\displaystyle p} まで並べる(理想的リストとも呼ばれる[9]。)必要がある。順位 p {\displaystyle p} における DCG が最大化されたものは IDCG と呼ばれる。


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:26 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef