【苦しみながら理解するReinforcement Learning】第9章 プランニングと学習

環境モデルを必要とする手法群(動的計画法やヒューリスティック探索など)と、モデルなしに用いることの出来る手法(モンテカルロ法やTD法など)の統一的な見方を展開する。
前者をプランニング(planning)手法、後者を学習(learning)手法と考える。

これら2つの種類の手法は実際上は異なっているのだが、大きな類似点もある。
ここでは両者がどの程度まで混在できるのかを調べる。

モデルとプランニング

環境のモデル(model)とは、エージェントが自分の行動に対してどのように応答するかを予測できる、あらゆる対象を意味するものとする。
モデルの中に全ての可能性と、その確率とを作り出すものがあり、これを分布モデル(distribution model)と呼ぶ。
確率に従ってサンプリングされる可能性の1つを作り出すサンプルモデル(sample)と呼ぶ。

経験の模倣あるいはシミュレーションにモデルを用いることができる。
モデルは環境をシミュレート(simulate)し、シミュレーション上の経験(simulated experience)を作り出す。

プランニングには2つの異なったアプローチがある。

状態空間プランニング(state-space planning)

(本書のもの)
プランニングは主として目標に対する最適方策、あるいは経路を見つけるための状態空間探査である。
行動は状態間の遷移を発生させ、価値観数が状態群に対して計算される。

プラン空間プランニング(plan-space planning)

プラン空間の探査。
オペレータ群によって、1つのプランが別のプランに変換され、価値関数はプラン空間上で定義される。
プラン空間には、展開的手法と半順序プランニングが含まれている。

半順序プランニング(partial-order planning)

ステップ間の順序付けがプランニングのどの段階においても完全には決められていない。

プラン空間手法は、強化学習の焦点となっている確率的最適制御問題に効率的に適用することは難しい。
状態空間プランニング手法には、共通の構造が2つある。

  1. 状態空間プランニング手法では、方策を改善するための重要な中間的ステップとして、価値関数の計算が含まれる
  2. 価値観数の計算は、シミュレーション上の経験に適用されたバックアップ操作によって行われる
モデル -> シミュレーション上の経験 -(バックアップ)-> 価値 -> 方策

図9.1は、1ステップ・テーブル型Q学習と、サンプルモデルによって作られたランダムサンプルに基づくプランニング手法の例を示している。
ランダムサンプル・1ステップ・テーブル型Qプランニング(Random-sample one-step tabular Q-planning)と呼ぶこの手法は、当該モデルに対して最適方策を収束する。

もし問題規模が大きすぎて厳密には解けないならば、非常に小さなステップでプランニングを行うことが、純粋なプランニング問題においてさえ、最も効率的なアプローチである。

プランニング、行動、学習の統合

相互作用の結果得られた新しい情報はモデルに変化を与え、それによってプランニングとの相互作用が行われる。
現在考慮中の(あるいは近い将来に予想される)状態あるいは意思決定に応じて、何らかの方法でプランニング過程を個別に設計することが望ましい。
大きな計算不可を要する過程であるなら、利用可能な計算資源をこれらの間に分配する必要がある。
このような問題の手始めに、オンライン・プランニング・エージェントに要求される主たる機能を結合した単純なアーキテクチャDyna-Qがある。

実際の経験に対して、プランニング・エージェントには少なくとも2つの役割がある。

  1. モデル学習(model-learning):モデルの改良(実際の環境に、より正確に適合するように)使えるということ
  2. 直接的強化学習(direct reinforcement learning: direct RL):強化学習手法を用いて、直接的に価値関数と方策を改善すること

図9.2参照。

モデルを介して非直接的に価値と方策を改善する手法を間接的強化学習(indirect reinforcement learning)という。

直接的手法、間接的手法ともに欠点を持つ。
間接的手法は限られた両の経験を、より多く活用するので、環境おとの相互作用が少なくとも良好な方策を実現する。
これに対して、直接的手法はずっと単純で、モデル設計時に偏った扱いの影響を受けない。

Dyna-Qは図9.2に示す全ての過程(連続的に発生するプランニング、行動、モデル学習、そして直接的RL)を含んでいる。
プランニング手法は、図9.1に示されたランダムサンプル・1ステップ・テーブル型Q学習である。
直接的RL手法は、1ステップ・テーブル型Q学習である。
過去に経験した状態行動対に関して問い合わせを受けたならば、モデルは最後に観測した次状態と次報酬を予測として返すだけである。

Dynaエージェント(Dyna-Qアルゴリズムはその1例である)の全体的なアーキテクチャが図9.3に示されている。
モデルが生成したシミュレーション上の経験に対し、開始時の状態と行動を選択する過程を探索制御(search control)という。

図9.3参照。

図9.4にDyna-Qの完全な形のアルゴリズムを示す。

図9.4を参照。

モデルに誤りがある場合

モデルがからの状態から始まり、厳密に正しい情報のみで満たされる例をみてきたが、一般的にはこのような幸運は期待できない。
モデルが不正確であると、プランニング過程は準最適方策を計算する。

ここは本書に非常に良い例がある。

優先度スイープ

Dynaエージェントでは、シミュレーション上の状態遷移は、以前に経験した状態行動対から一様かつランダムに選ばれた状態行動対から開始されていた。
しかし、一様な選択は通常最良ではない。
もし、シミュレーション上の遷移とバックアップの対象が特定の状態行動対群にしぼられているならば、プランニングをいっそう効率的にすることができる。

これが、優先度スイープ(prioritized sweeping)の考え。

図9.9参照。

完全バックアップとサンプルバックアップ

1ステップ・バックアップの特徴軸は3つある。(前は2つと書いてあったが…)

  1. 状態価値と行動価値のいずれをバックアップするか
  2. 最適方策と任意に与えられた方策のいずれを推定するか
  3. 完全バックアップ(起こるかもしれない全ての可能な事象を考慮する)か、サンプルバックアップ(起こるかもしれない単一のサンプルを考慮する)か

図9.12参照。

完全バックアップはサンプリング誤差によって損なわれることがないので、より良い推定をもたらすが、より多くの計算を必要とし、これがプランニングを制限することがよくある。
また、サンプル・バックアップは、早めに推定値の精度を挙げられることで、後続状態から更新された価値がさらに正確になる。

遷移軌跡サンプリング

バックアップを分散させる2つの方法を比較する。

  1. 動的計画法をもとにした古典的アプローチ:スイープごとに各状態(あるいは状態行動対)を1度バックアップしながら、状態(あるいは状態行動)空間全体に対してスイープを行う(規模が大きいタスクにおいて、1スイープを完了する時間がないので問題が多い)
  2. 何らかの分布に従って、状態あるいは状態行動空間からサンプリング:方策オン型分布に従って(つまり、現在の方策に従っているときに観測される分布に従って)バックアップを分散させる

2つ目の手法では、個々の遷移軌跡のシミュレーションを行い、その途中で遭遇した状態あるいは状態行動対のバックアップを行う。
このようにして経験とバックアップを生成する方法を遷移軌跡サンプリング(trajectory sampling)と呼ぶ。

ヒューリスティック探索

ヒューリスティック探索では近似、つまりヒューリスティック価値観数を変更することではなく、現在の価値関数が与えられたとして、行動選択を改善することにのみ関わりを持つ。
言い換えると、ヒューリスティック探索は方策計算の一部としてのプランニングである。

選択可能な行動群のバックアップ値を計算するが、それらの値を保存しようとはしない。
したがって、ヒューリスティック探索が、1ステップを超えてグリーディ方策を実行する考え方の拡張版であると見ることができる。

ヒューリスティック探索は、最適価値関数を良好且つ校則に近似するように、選択的にバックアップを分布させる方法も示唆している。
ヒューリスティック探索に関するかなりの研究は、探索を出来る限り効率的にすることに向けられている。

図9.15

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です