2017.11.13
-
sample로 가져온 initial point의 경우 학습을 하여 reward가 발생하면 모든 action에 동일한 reward를 반영한다.
마지막 행위가 reward를 발생시켜지만, 이전 행위가 하나의 묶음으로 생각을 해야 하기 때문이다
-
계속 0(LEFT)만 predict이 되고 있음.
TODO
- state가 완성되면, 데이터를 단순화 시키기 위해, 다른 숫자는 모두 1로 변환한다
- state에 현재 블럭의 위치와 상태로 같이 반영시켜야 한다 -> 상태 정보에 블럭이 없기 때문에, 모든 블럭이 같은 행위를 반영하는 것 같다