【苦しみながら理解するReinforcement Learning】第1章 序章

あまり同時に色々な本を読まない方がいいと思うのですが、時間が会った時に手元にあったので少し読み進めてしまいました…

今回のテキストはこちらです。

結構お高いんですが、良い本です!

強化学習

強化学習では、数値化された報酬信号を最大にするために、何をすべきか(どのようにして状況に基づく動作洗濯を行うか)を学習する。

問題を定式化すると、以下の3つの特徴にまとめることができる

  • 感覚(sensation)
  • 行動(action)
  • ゴール

注意としては、強化学習と教師あり学習は異なることであるということを理解しておかなくてはいけません。

教師あり学習(supervised learning)は知識を持った外部の教師が提供する、例からの学習である。
強化学習にはあって他の学習にはない挑戦的なテーマの1つは探査(exploration)と知識利用(exploitation)の間のトレードオフをいかに扱うかである。

強化学習には以下のような応用方法がある。

  • チェス
  • 石油精製所運転のコストを下げる
  • ガゼルの子が生まれて30分ぐらいで歩けるようになる
  • ゴミ掃除ロボット
  • 朝食の準備をする(かなり複雑)

強化学習の構成要素

  1. 方策(policy):ある時点での学習エージェントのふるまい方を定義する
  2. 報酬関数(reward function):この関数は環境において知覚した状態(つまり状態行動対)を1個の数字である報酬(reward)に写像し、このお報酬はその状態に備わった望ましさを表している(即時的に何がいいか)
  3. 価値関数(value function):状態の価値(value)とは、エージェントがその状態を基点として将来にわたって蓄積することを期待する報酬の総量である(最終的に何がいいか)
  4. 環境のモデル(model):環境の挙動を模倣する何か

拡張された例:三目並べ

ミニマックス

三目並べの例では、ミニマックス(従来のゲーム理論で使われる)を使うのは正しくない。
なぜなら、ミニマックスは敵が特定の手を売っていることを仮定している -> 不正確な手を打ってきた時に対応できない

動的計画法

対戦相手の最適解を計算するため、完全な情報が必要となる。

この問題に関してなしうる最良の策は、第一に、ある程度確信を得られるまで敵の挙動のモデルを学習し、敵の近似モデルが得られたものとして最適解を得るために動的計画法を適用することである。

三目並べのアプローチ

三目並べのケースでは、方策はゲームの各状態となる。

ゲームの状態の各々に対して1個ずつ対応する数のテーブルを設定し、各数字はその状態から勝ちに結びつく確率の最新の推定量である。

この推定量を当該状態の価値として扱い、学習された価値観数の全体をテーブルに表現する

勝った状態を1、負けか引き分けを0、初期値を0.5とする。

また、探索的な手(exploratory moves)と呼ばれる勝率が高い状態にならないかもしれないランダムな手を選ばせる手法を使う。

式 1章

s : 貪欲な手を指す前の状態
s': 手を指した後の状態
α : ステップサイズパラメータ(step-size parameter)正の小さな分数

TD学習:時間的差分学習(temporal difference learning)

進化的手法と価値関数を学習する手法

進化的手法
  • 方策を固定し、敵に対して数多くのゲームを行う。
  • つまり敵に関するモデルを用いてゲームのシミュレーションを何度も行う。
  • しかし、方策の変更は多くのゲームを行ってからのみ。
  • 各ゲームの最終結果のみ使われる。
価値関数を学習する手法
  • 各状態を評価する。

価値関数を学習することでプレイ途中での情報を利用できる!

強化学習法の特徴
  • 環境との相互作用を行っている間の学習が重要視される。
  • 目標は明確であり、正確な挙動を示すには、選択の効果に遅延があることを考慮に入れるようなプランニングあるいは見通しが必要。

まとめ

  • 強化学習は目標指向型の学習と意思決定を理解するための計算的アプローチである。
  • 価値と価値関数はこの本で扱う強化学習法の中心的な特徴である。
  • 我々は価値関数が方策の空間を効率的に探索するための不可欠であるという立場である。

強化学習の歴史

現在の強化学習は以下の3つの大きな流れによって形成された。
1. 動物の学習心理学
1. 最適制御問題と動的計画法を用いた最適制御問題の解法
1. TD法

その他

陽に探索する

これはどういう意味なんだ…

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です