「強化学習」の学習アルゴリズムの分類方法である「モデルベース / モデルフリー」と「オンポリシー / オフポリシー」を軽くまとめます。 1. モデルベース / モデルフリー 「強化学習アルゴリズム」の最も重要な分類方法の1つは、エージェントが「環境 ...
以下の記事が面白かったので、ざっくり訳してみました。 OpenAIでは、8つの「Robotics環境」と、「HER」(Hindsight Experience Replay)のベースライン実装をリリースしました。過去1年間の研究用に開発されましたものになります。これらの環境を使用して、実際の ...
現在アクセス不可の可能性がある結果が表示されています。
アクセス不可の結果を非表示にする