【苦しみながら理解するReinforcement Learning】チュートリアル その2

今回はこれを!

進めて行きたく!
まだ、たぶん表層しか理解できていないので注意深くいきたい。

Quick Read

Reinforcement Learning: A Tutorial

強化学習を読んだいま、あまり新しく学ぶことはなくなってたけど、秘技知識の上塗りをするために精読しよう…

Reinforcement learning combines the fields of dynamic programming and supervised learning to yield powerful machine-learning systems.

そういう解釈なんだ…

There are three fundamental parts of a reinforcement learning problem:
* the environment
* the reinforcement function
* the value function

reinforcement functionってはじめて出てきた気が…日本語訳をわかってないだけか…

reinforcement function that properly defines the goals of the RL agent.

うーん、ゴールを定義する関数ってあったかな?
実装したら、そのことか!ってなりそうだけども。

reinforcement functionの一つにPure Delayed Rewardというのがあるんだが、

In the Pure Delayed Reward class of functions the reinforcements are all zero except at the terminal state.

でも、バックギャモンの例で勝ったらプライチ、負けたらマイナスイチという例が出てるんだが、基本0やけど、goal statesの価値をあげるものってことなのか…な…(ギャモン!

-1をterminal stateとするものもあるけど、デフォルトというか、基本的に0なのか、マイナスなのかの問題のようだ。

そして、みんな価値関数の近似に躍起になって取り組んでいる。(Approximating the Value Function)

価値観数の近似には2つの方針がある。

  • 失敗を引き起こす行動を取らない
  • 以降に失敗を導くような行動は取らなくなる。

Figure3の右の式が何故最後0になるかわからない…
eは近似エラーなのだが…

figure3 をいれる

$$ e(1) = \gamma^6 e(1) = 0 $$

因みに、

$$ e(X_t) = \gamma e ( X_{t + 1} ) (7) $$

If the approximation error in state 3 is a factor of Γ smaller than the error in state T, which is by definition 0, then the approximation error in state 3 must also be 0. If equation (7) is true for all x_t, then the approximation error in each state x_t is necessarily 0, ergo V(x_t) = V*(x_t) for all x_t.

7式で将来のエラーも割り引いたら現在のエラーになるということを言っているので、将来エラーが0なら、全て0になるということかな?

Bellman residualもはじめて出てきた気が…

Residual Gradient Algorithms

式11を参照。
(やばいLatexが思いの外めんどくさい…まぁ私が描くLatexよりもペーパーの式の方が美しいから参照でいいな。)

residual value iterationdirect value iterationの違いが大切そうなんだけど、この文章だけでは理解できず…

Baird(1995)とHarmon, Baird, and Kloopf(1995)、Harmon and Baird(1996)読むか。

というかそもそも、Bellman residualも読まねばなるまい。

Q-Learning

The Q-value is a prediction of the sum of the reinforcements one will receive when performing the associated action and then following the given policy.

あれ、こんなだったっけ?
なんか違う気が…

However, if one were to naively perform value iteration on this MDP by taking a single sample of the successor state associated with each action instead of the integral, then x would converge to a value of 7.5. Clearly the wrong answer.

Figure5がどうやったら7.5になるんだ…

Residual Gradient and Direct Q-learning

上記2つを組み合わせたもの。

Advantage Learning

Q-Learningを効率よく学習するための手法。

in advantage learning the value associated with each action is called an advantage.
Therefore, advantage learning finds an advantage function rather than a Q-function or value function.
The value of a state is defined to be the value of maximum advantage in that state.

式15を参照。

Residual Gradient and Direct Advantage Learning

direct advantage learning and residual advantage learning are given in equations (16) and (17) respectively.

式16、式17を参照。

TD(λ)

お馴染みのやつだ…

今までに出てきた解法よりも早いらしい。

0 < λ < 1

TD(0), the case of λ=0, is identical to value iteration for the example problem stated above.
TD(1) updates the value approximation of state n based solely on the value of the terminal state.

λ=0の時は、その時の状態価格と等しくなる。 -> residual gradient algorithmsと等しい。
λ=1の時は、ターミナルバリューだけを基準とする。

長くなったので次もQuickRead。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です