「強化学習を用いたマリオの訓練」の訓練後の動作

Question

unknown-yuser opened this issue 4 years ago · 3 comments

Pytorchのチュートリアルの日本語訳を見て勉強しております。大変感謝しています。

強化学習を用いたマリオの訓練を見たのですが、一つ確認したいことがございます。

"訓練後の動作を動画で確認" で記憶と学習を実行していますが、ここは機械学習でいう「テストフェーズ」に相当するので実行しなくても良いのかと考えているのですが、如何でしょうか。

よろしくお願いします。

Answer 1 · 2021-01-09T11:15:29.000Z

@ham-rally さま

ご質問をありがとうございます。

完全におっしゃる通りです。
そして、むしろ、
訓練した結果を確認したいのに、確認時にさらに訓練が行われては、
ネットワークが確認中に変化するので、良くありません。

一方で、今回はチュートリアルのコードなので、
最後の可視化だけ、記憶と学習の命令を消したり、コメントアウトすると、

初心者の方にとってはそれはそれで、
「なぜ上の部分とコードが違うのだろう・・・」
と混乱を招くことを危惧しました。

そのため、元のチュートリアル（英語）に変更を加えず、
元のコード（訓練有）にそのまま可視化だけを追記しています。

ですが、訓練後のテストや検証として動作を確認する場合、
正しくは @ham-rally さまのおっしゃる通り、

"訓練後の動作を動画で確認" で記憶と学習を実行していますが、ここは機械学習でいう「テストフェーズ」に相当するので実行しなくても良いのかと考えている

が、本当は正しい行為です。

貴重なご質問をありがとうございます。

Answer 2 · 2021-01-09T12:33:53.000Z

ご回答頂きありがとうございます。

初心者の方にとってはそれはそれで、
「なぜ上の部分とコードが違うのだろう・・・」
と混乱を招くことを危惧しました。

この理由からコードに差分を出さないためにオリジナルのソースコードを再利用する方針にしたこと、理解しました！

Answer 3 · 2021-01-09T23:03:51.000Z

@ham-rally さま

ありがとうございます。
今後とも、どうぞ宜しくお願い致します。