【苦しみながら理解する強化学習】Spinning Up 01 全体像とインストール

超話題になっているコレ!

目標

チュートリアルとかやるときに、終わった後にどうなっていたいかが明確でないとフワッとなってしまうので。

どんなデータをインプットし、どういうアルゴリズムだと、どういうアウトプットになるか把握する。またそれら一連を実装できるようになる。

そして、次の段階として、インプットの部分をハードウェアのセンサーからのデータに置き換えたい。

コンテンツ

特に論文リストとサンプルコード、ウォームアップに期待したい。

くぅ…素晴らしすぎる…

While fantastic repos like rllab, Baselines, and rllib make it easier for researchers who are already in the field to make progress, they build algorithms into frameworks in ways that involve many non-obvious choices and trade-offs, which makes them hard to learn from.



The algorithm implementations in the Spinning Up repo are designed to be
* as simple as possible while still being reasonably good,
* and highly-consistent with each other to expose fundamental similarities between algorithms.

インストール

まぁpythonはcondaで普通にできるが、MuJoCoで少しハマりかける…

computer idを知るためにbinaryコードを実行しなくていけない。
こちらを参考に(osxです)

そして、実行されcomputer idが表示される。
設定が全て済んだら一応これを試しておいた方が良いかもしれない。

アルゴリズム

  • on policy

  • off policy

全てのアルゴリズムはnon-recurrentで実装されている。
recurrent辺りはこちらを参考に。

【苦しみながら理解する強化学習】チュートリアル その4-6
今回は、Part 6: Partial Observability and Deep Recurrent Q-Networks 概要 In this installment of my Simple RL series, I w...

コードのフォーマット

2つファイルがあって、1つはアルゴリズムのロジック、もう1つはアルゴリズムを走らせるためのcoreのファイル。
より詳細はこちら。

学習の実行方法

コマンドラインから

スクリプトからはppoを使う

学習の出力

Each algorithm is set up to save a training run’s hyperparameter configuration, learning progress, trained agent and value functions, and a copy of the environment if possible (to make it easy to load up the agent and environment simultaneously).

まぁこの辺りを自分で実装するときもやるべきですよね。

とりあえず、導入部分をざざっと読みました。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です