DFS_ER : 동적 프레임스키핑을 통한 휴먼 데몬스트레이션 데이터를 활용한 강화학습에서의 성능향상 기법

1. Motivation

게임 환경에서의 고품질의 휴먼 데몬스트레이션 데이터를 얻기 위해선 높은 비용이 필요하다.
일반적으로 Atari 게임을 활용하여 강화학습에 대한 연구가 진행되나, 이들이 활용하는 고품질의 휴먼 데몬스트레이션 데이터는 법적인 문제로 인해 공유가 어렵다.
따라서 오픈소스로 공유되어지는 휴먼 데몬스트레이션 데이터를 활용해야하지만, 이러한 데이터는 품질을 보장할 수 없을 뿐만 아니라, 학습하고자하는 게임에 대한 데이터가 없을 수도 있다.
즉, 휴먼 데몬스트레이션 데이터에 대한 효과적인 활용이 반드시 필요하다.

휴먼 데몬스트레이션 데이터를 강화학습에서 효과적으로 활용하는 방안을 제시한다.
기존 휴먼 데몬스트레이션 데이터를 활용하는 강화학습에 제안기법을 적용하여 기존 방식 대비 두 가지 목적 중 하나를 달성한다.
- 기존 대비 수렴 스코어에 도달하는 시간이 더 빨라진다.
- 기존 대비 더 높은 수렴 스코어에 도달할 수 있다.

일반적인 휴먼 데몬스트레이션 데이터는 샘플링 시, 고정된 frame skipping 을 설정하고 state를 구성한다. 이때, frame 과 state는 다음과 같이 정의된다.
- frame : 캡쳐된 게임의 한 장면
- state : 다수의 frame을 적충하여 구성한 실제 신경망을 위한 입력데이터
그러나, 이러한 방식은 특정 행위에 대하여 얼마나 길게 행위를 지속하는지에 대하여 학습하기 어렵게 한다.
만약 frame skipping rate를 human demonstration data로 부터 학습하게 된다면 다음과 같은 이점이 생긴다.
- 사람이 특정 행위를 특정 상황에서 얼마나 길게 유지하는지 확인할 수 있다.
- 강화학습 에이전트가 이것을 학습하게 된다면, 해당 상황에서 행위를 길게 유지하게 된다. 결과적으로 에피소드 별 행위를 결정하는 빈도가 감소한다.
- 강화학습 에이전트가 생성된 경험은 행위의 지속성을 고려한 경험이 되므로 기존 대비 더 가치있는 경험이 되며, 학습의 효율성이 증가한다.
휴먼 데몬스트레이션 데이터를 읽어 행위의 지속성을 확인하고, 행위가 길게 지속되는 경우에는 강화학습 에이전트도 행위를 길게 지속하도록 행위공간을 변경시킨다.

이 실험에서 활용한 Atari grand challenge dataset의 경우, 비교적 높은 점수의 휴먼 데몬스트레이션 데이터를 가지고 있지 않음
- 여기서 비교적이란, 구글의 DQfD 실험의 최고스코어 데이터와 비교
실험은 세가지 그룹을 정의하여 비교함.
- Single : 일반적인 frame skipping을 적용한 경우
- FS-ER : 60Hz의 human demonstration data를 전부 활용한 경우.
- DFS-ER : 제안 기법
제안 기법은 DQfD 에 적용됨.
이 실험에서는 비교적 학습이 쉬운 게임(Dense-reward environment) 에서 비교함.
실험 결과 : 최대 60.3 % 의 스코어 상승이 확인됨.

Atari 게임 중, Spare-reward 환경의 게임 중 하나인 Montezuma's Revenge를 학습하여 품질에 따른 학습 성능 차이를 비교함.
실험 결과
- 저품질 휴먼 데몬스트레이션 데이터를 활용한 경우 DFS-ER이 더 높은 수렴 점수에 도달하였으나, 고품질 휴먼 데몬스트레이션 데이터를 활용하는 경우에는 실험 스텝 내에 모든 방식이 동일한 수렴 점수에 도달함.
- DFS-ER은 다른 기법 대비 동일한 타임스텝 내에 179.8%~230% 더 많은 에피소드를 탐색함.

제안 기법을 그 당시(2019) 최신 모델 중 하나인 EA-ACKTR에 적용함.
실험 그룹
- EA-ACKTR : 기본 EA-ACKTR 방식
- EA-ACKTR with DFS-ER : 기본 EA-ACKTR에 DFS-ER을 적용
실험결과
- 최종 수렴 정확도 상승
  - EA-ACKTR (29,285), EA-ACKTR with DFS-ER (33,034)
  - DQfD에 적용했을때와 달리 소폭의 에피소드 수 증가(3.3%)
    - 이것은 제안기법 적용 시 에이전트가 죽지 않고 오래살아남아 에피소드 수가 크게 증가하지 않은것으로 가정.

실험 자체가 2019년에 진행되어 dependency가 확실하지 않음.
Tensorflow 1.8
OpenAI gym
Low quality demonstration data : Atari Grand Challenge Dataset (version 1)
High quality demonstration data : EA-ACKTR 깃헙에서 제공되는 Montezuma's revenge 휴먼 데몬스트레이션 데이터를 활용함.

폴더 별로 DQfD에 대한 실험, EA-ACKTR에 제안기법을 적용한 경우로 나뉘어짐.
휴먼 데몬스트레이션 데이터는 스코어순으로 내림차순 정렬 후, 버퍼가 다 채워질때까지 Replay buffer에 추가함.
4.1 실험
- learning rate와 $\lambda_1$, $\lambda_2$, $\lambda_3$, $\lambda_4$ 값은 Config.py를 통해 설정.

 cd dfs_er_dqfd
 python Trainer.py [setting hyper pameters..]

 cd dfs_er_dqfd
 python Trainer.py [setting hyper pameters..]

 cd dfs_er_eacktr/baselines/acktr
 #train 함수의 r2_cond, r2_skip 옵션이 
 #각각 fs_2condition, fs_2 에 매칭되는 하이퍼파라미터임. 
 python run_atari_training.py