【苦しみながら理解する強化学習】Spinning Up 03 RLの勉強方法

必要な知識はこれや

わかってるやろけど、まずはRLやる上で必要な知識からや。

んで、まぁまぁリンクあるから本ページチェックした方がええかしれんで。

手を動かして学びや

Write your own implementations. You should implement as many of the core deep RL algorithms from scratch as you can, with the aim of writing the shortest correct implementation of each. This is by far the best way to develop an understanding of how they work, as well as intuitions for their specific performance characteristics.

これにつきるで!

  • 簡単なものから徐々に難しいアルゴリズムにしていく
  • ペーパー読んで実装する時は、ガチで隅々までよめ
  • ペーパーたまにめっちゃ複雑にしてくるから注意せぇよ、ほんまはそんな複雑である必要ないときあんねん
  • 現存の実装にもおんなじことがいえるで
  • それと、はじめはデバッグしやすい環境でやれよ、ハードウェアとかからはじめるんはオススメせえへん
  • うまく動かへんくて、ペーパーとおんなじようなハイパーパラメータつこてるときは、バグの可能性が高いで。それとテストはいくつかの環境でやった方がええねんで
  • 色々な方法で計測しいや、そうすればなんでバグかとかすぐわかるようになるで、例えば以下のようなんがあるな。

mean/std/min/max for cumulative rewards, episode lengths, and value function estimates, along with the losses for the objectives, and the details of any exploration parameters (like mean entropy for stochastic policy optimization, or current epsilon for epsilon-greedy as in DQN). Also, watch videos of your agent’s performance every now and then; this will give you some insights you wouldn’t get otherwise.

  • 実装が終わったって、簡単な環境でテストできたら、難しい環境にしていきや
  • 継続は力なりやで!頑張りや!

論文はここをチェックやで

次はエクササイズやってみてから、その後の方針決めるで!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です