必要な知識はこれや
わかってるやろけど、まずはRLやる上で必要な知識からや。
1 2 3 4 5 |
数学 DL libraryたち RLの基礎 |
んで、まぁまぁリンクあるから本ページチェックした方がええかしれんで。
手を動かして学びや
Write your own implementations. You should implement as many of the core deep RL algorithms from scratch as you can, with the aim of writing the shortest correct implementation of each. This is by far the best way to develop an understanding of how they work, as well as intuitions for their specific performance characteristics.
これにつきるで!
- 簡単なものから徐々に難しいアルゴリズムにしていく
- ペーパー読んで実装する時は、ガチで隅々までよめ
- ペーパーたまにめっちゃ複雑にしてくるから注意せぇよ、ほんまはそんな複雑である必要ないときあんねん
- 現存の実装にもおんなじことがいえるで
- それと、はじめはデバッグしやすい環境でやれよ、ハードウェアとかからはじめるんはオススメせえへん
- うまく動かへんくて、ペーパーとおんなじようなハイパーパラメータつこてるときは、バグの可能性が高いで。それとテストはいくつかの環境でやった方がええねんで
- 色々な方法で計測しいや、そうすればなんでバグかとかすぐわかるようになるで、例えば以下のようなんがあるな。
mean/std/min/max for cumulative rewards, episode lengths, and value function estimates, along with the losses for the objectives, and the details of any exploration parameters (like mean entropy for stochastic policy optimization, or current epsilon for epsilon-greedy as in DQN). Also, watch videos of your agent’s performance every now and then; this will give you some insights you wouldn’t get otherwise.
- 実装が終わったって、簡単な環境でテストできたら、難しい環境にしていきや
- 継続は力なりやで!頑張りや!
論文はここをチェックやで
次はエクササイズやってみてから、その後の方針決めるで!