thumpx3.hatenablog.jp
続き。
用語 |
解説 |
エージェント |
学習者 |
環境 |
エージェントの外側にあるもの全て |
状態 |
現在の環境 |
報酬 |
状態が推移する時、同時に得られる結果 |
行動 |
エージェントがとりうる選択肢 |
方策 |
状態から行動を決める際のルール |
行動価値関数 |
現在の状態から次の行動を評価する関数 |
割引率 |
エージェントが遠い将来の報酬と近い将来の報酬を比較すること |
用語 |
解説 |
モデルフリー型 |
環境モデルを使用しない |
モデルベース型 |
環境モデルを使用する |
モデルフリー型の学習
・価値関数ベース:現在の状態に基づいて最適な行動を選択する。方策が価値関数から導かれる。
用語 |
解説 |
モンテカルロ法 |
行動による累積報酬の期待値をそのまま評価する方法 |
時間差分法 |
次の時刻の履歴データを用いた価値関数と現在の履歴データを用いた価値関数との差を逐次計算しながら価値関数を更新していく方法 |
SARSA |
価値ベースの方策オン型強化学習の一例。状態と行動を対応づける方策関数に基づく。 |
Q学習 |
方策オフ型のアルゴリズム。行動価値関数の更新に方策の結果を採用しない。 |
・方策関数ベース:価値関数を用いず、方策を直接操作することで計算する。
用語 |
解説 |
REINFORCE |
方策勾配アルゴリズムの一例。状態を入力とし、出力としてある行動をとる確率を生成する方策を作成する。 |
・混合アプローチ:価値関数ベースと方策関数ベースを混合させたもの。ex. Actor-Critic法
モデルベース型の学習
用語 |
解説 |
DQN |
深層学習とQ-learning(強化学習)を組み合わせたフレームワーク。メインネットワークとターゲットネットワークと呼ばれる2つのディープネットワークを使っている。 |