どんなもの?
proximal policy optimization (PPO)
policyの最適化手法。
安定して信頼性が高い。
実装コストは低く、vanilla policy gradientの数行を修正するのみ。
先行研究と比べてどこがすごい?
trust region policy optimization(TRPO)
と同様の安定性を誇るが、実装が簡単。
技術や手法のキモはどこ?
TRPOでは最大化していたこの式を
以下のように変えた。
単にpolicyの改善を制限し、改悪する可能性も追加した。
TRPOでは、任意で決めていたβの算出式を固定した。
どうやって有効だと検証した?
ロボットの動作とアタリのゲーム。
動作では他のアルゴリズム全てより良いパフォーマンス、アタリのゲームでは、A2Cより良いパフォーマンスでACERと同じ程度だが実装がより簡単。
次に読むべき論文は?
TRPOだろう。
KL, actor critic, A2Cも読む予定としよう。
「【苦しみながら理解する強化学習】PPO」への1件のフィードバック