強化学習論文のサーベイ用リポジトリです。
- スプレッドシートで進捗を管理していくことにします。
- 現在フォーマット探索中です
- テンプレートから一つのmdファイルを生成してそこに一つの論文に関する情報・まとめ・コメントを加えて行きます。
- 基本的に1PR1論文。まとめ事項などに対してレビューが入った場合は対応をお願い致します。
$ ./init.sh
title:
PGQ: Combining policy gradient and Q-learning
$ ls papers
PGQ: Combining policy gradient and Q-learning.md
...
生成されたpapers/PGQ: Combining policy gradient and Q-learning.md
にまとめ事項やコメント等を書いてPRを出してください。
複数人でサーベイしてもバラバラの書き方ではメリットを享受できないため、ある程度フォーマットを決めています。 ただ細かすぎると投稿者が減ってしまうので、最低限の必要事項は少なくしてあります(太字)。
- タイトル (required)
- リンク (required)
- 出版年 (required)
- ジャーナル・カンファレンス (optional) :
- 著者 (optional)
- 所属 (optional)
- 関連リンク (optional)
- タグ (optional)
各最大3行以内が目安
- 概要 (required): 何をしたのか?(一体どういったことをしている論文なのかをひと言で)
- 目的 (optional): 何故したのか?(何故この研究をしたのか・何故その手法を提案したのかの理由をひと言で)
- 貢献(新規性・差分)(optional): これまでの先行研究とどこが違うのか?を一言で
- 手法 (optional): どうやってしたのか?(手法のポイントをひと言で)
- 結果 (optional): どうなったのか?(結果がどういう指標で、どうだったのかをひと言で)
- ここでは (1) どのように (2) なにを示した(主張した)のかが分かるように
- (1) データセット・タスク・評価指標
- (2) 結果としてどうなったか
- ここでは (1) どのように (2) なにを示した(主張した)のかが分かるように
その他、強化学習理論において一般的な定理があればそれについても言及されているとよい
- 定理の主張 (optional)
- 定理の証明方法 (optional)
これも必須ではないが関連する論文があれば記述
- コメントを書いたアカウント名 (required)
- 点数 (required):(必読に値するかを1から10段階評価で)
- フリーコメント (optional): (主張が素直に受け入れられない点や、考えられる改善点、感銘を受けた点など)