【苦しみながら理解する強化学習】PPO

どんなもの?

proximal policy optimization (PPO)
policyの最適化手法。
安定して信頼性が高い。
実装コストは低く、vanilla policy gradientの数行を修正するのみ。

先行研究と比べてどこがすごい?

trust region policy optimization(TRPO)と同様の安定性を誇るが、実装が簡単。

技術や手法のキモはどこ?

TRPOでは最大化していたこの式を
式6
以下のように変えた。
式7
単にpolicyの改善を制限し、改悪する可能性も追加した。

TRPOでは、任意で決めていたβの算出式を固定した。
式8

どうやって有効だと検証した?

ロボットの動作とアタリのゲーム。
動作では他のアルゴリズム全てより良いパフォーマンス、アタリのゲームでは、A2Cより良いパフォーマンスでACERと同じ程度だが実装がより簡単。

次に読むべき論文は?

TRPOだろう。

KL, actor critic, A2Cも読む予定としよう。

「【苦しみながら理解する強化学習】PPO」への1件のフィードバック

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です