機械学習および
データマイニング
問題
分類
クラスタリング
回帰
異常検知
相関ルール
Q学習(Qがくしゅう、英: Q-learning)は、機械学習分野における強化学習の一種である。 Q学習は機械学習手法の方策オフ型TD学習の一つである。概念自体は古くから存在するが、Q学習(Q-learning)という名前で今日の手法がまとめられたのは、1989年のクリス・ワトキンズ(Chris Watkins)の論文に端を発する。 Q学習は有限マルコフ決定過程において全ての状態が十分にサンプリングできるようなエピソードを無限回試行した場合、最適な評価値に収束することが理論的に証明されている。実際の問題に対してこの条件を満たすことは困難ではあるが、この証明はQ学習の有効性を示す要素の一つとして挙げられる。 Q学習では実行するルールに対しそのルールの有効性を示すQ値という値を持たせ、エージェントが行動するたびにその値を更新する。ここでいうルールとはある状態とその状態下においてエージェントが可能な行動を対にしたものである。例えばエージェントの現在の状態をstとし、この状態で可能な行動がa, b, c, dの4通りあるとする。この時エージェントは4つのQ値、 Q(st , a)、Q(st , b)、Q(st , c)、Q(st , d) を元に行う行動を決定する。行動の決定方法は理論上では無限回数試行するならランダムでもQ値の収束は証明されているが、現実には収束を早めるため、なるべく Q値の大きな行動が高確率で選ばれるように行う。選択方法としては、ある小さな確率εでランダムに選択し、それ以外では Q値の最大の行動を選択するε-グリーディ手法や、遺伝的アルゴリズムで使用されているルーレット選択、以下のようなボルツマン分布を利用したソフトマックス手法などが使用されている。 π ( s , a ) = exp ( Q ( s , a ) / T ) ∑ p ∈ A exp ( Q ( s , p ) / T ) {\displaystyle \pi (s,a)={\frac {\exp(Q(s,a)/T)}{\sum _{p\in A}\exp(Q(s,p)/T)}}}
概要
Q学習の内容