Q学習 - 暇つぶしWikipedia

Q学習

機械学習および
データマイニング

問題

分類

 クラスタリング

 回帰

 異常検知

相関ルール（英語版）

強化学習

構造化予測（英語版）

特徴量設計（英語版）

表現学習（英語版）

オンライン学習（英語版）

半教師あり学習（英語版）

教師なし学習

ランキング学習（英語版）

文法獲得（英語版）

教師あり学習（分類 • 回帰）

決定木（英語版）

アンサンブル（英語版）
（バギング、ブースティング、
ランダムフォレスト）

k-NN

線形回帰

 単純ベイズ

 ニューラルネットワーク

 ロジスティック回帰

 パーセプトロン

関連ベクトルマシン (RVM)（英語版）

サポートベクトルマシン (SVM)

クラスタリング

BIRCH（英語版）

階層的（英語版）

k平均法

 期待値最大化法 (EM)

DBSCAN

OPTICS（英語版）

平均値シフト（英語版）

次元削減（英語版）

因子分析

 CCA

ICA

LDA（英語版）

NMF（英語版）

PCA

t-SNE（英語版）

構造化予測（英語版）

グラフィカルモデル
（ベイジアンネットワーク、
CRF、HMM）

異常検知

 k-NN

局所外れ値因子法（英語版）

ニューラルネットワーク

 オートエンコーダ

 ディープラーニング

 多層パーセプトロン

RNN（英語版）

制約ボルツマンマシン（英語版）

SOM

畳み込みニューラルネットワーク

 強化学習

Q学習

SARSA（英語版）

時間差分 (TD)（英語版）

理論

バイアスと分散のトレードオフ（英語版）

計算論的学習理論（英語版）

経験損失最小化（英語版）

オッカム学習（英語版）

PAC学習（英語版）

統計的学習（英語版）

VC理論（英語版）

議論の場

NIPS（英語版）

ICML（英語版）

ML（英語版）

JMLR（英語版）

⇒ArXiv:cs.LG

表

話

編

歴

Q学習（Qがくしゅう、英: Q-learning）は、機械学習分野における強化学習の一種である。
概要

Q学習は機械学習手法の方策オフ型 TD学習の一つである。概念自体は古くから存在するが、Q学習（Q-learning）という名前で今日の手法がまとめられたのは、1989年のクリス・ワトキンズ（Chris Watkins）の論文に端を発する。

Q学習は有限マルコフ決定過程において全ての状態が十分にサンプリングできるようなエピソードを無限回試行した場合、最適な評価値に収束することが理論的に証明されている。実際の問題に対してこの条件を満たすことは困難ではあるが、この証明はQ学習の有効性を示す要素の一つとして挙げられる。
Q学習の内容

Q学習では実行するルールに対しそのルールの有効性を示すQ値という値を持たせ、エージェントが行動するたびにその値を更新する。ここでいうルールとはある状態とその状態下においてエージェントが可能な行動を対にしたものである。例えばエージェントの現在の状態をstとし、この状態で可能な行動がa, b, c, dの4通りあるとする。この時エージェントは4つのQ値、 Q(st , a)、Q(st , b)、Q(st , c)、Q(st , d) を元に行う行動を決定する。行動の決定方法は理論上では無限回数試行するならランダムでもQ値の収束は証明されているが、現実には収束を早めるため、なるべく Q値の大きな行動が高確率で選ばれるように行う。選択方法としては、ある小さな確率εでランダムに選択し、それ以外では Q値の最大の行動を選択するε-グリーディ手法や、遺伝的アルゴリズムで使用されているルーレット選択、以下のようなボルツマン分布を利用したソフトマックス手法などが使用されている。 π ( s , a ) = exp ⁡ ( Q ( s , a ) / T ) ∑ p ∈ A exp ⁡ ( Q ( s , p ) / T ) {\displaystyle \pi (s,a)={\frac {\exp(Q(s,a)/T)}{\sum _{p\in A}\exp(Q(s,p)/T)}}}

Size:13 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef