ssshow16/tetris_ri

Python

tetris_ri

2017.11.13

sample로 가져온 initial point의 경우 학습을 하여 reward가 발생하면 모든 action에 동일한 reward를 반영한다.

마지막 행위가 reward를 발생시켜지만, 이전 행위가 하나의 묶음으로 생각을 해야 하기 때문이다
계속 0(LEFT)만 predict이 되고 있음.

TODO

state가 완성되면, 데이터를 단순화 시키기 위해, 다른 숫자는 모두 1로 변환한다
state에 현재 블럭의 위치와 상태로 같이 반영시켜야 한다 -> 상태 정보에 블럭이 없기 때문에, 모든 블럭이 같은 행위를 반영하는 것 같다