[IITP] GANs를 이용한 딥러닝용 학습데이터 자가 증식 기술 및 유효성 검증 기술 개발

1. 연구개발목표

본 과제는 딥러닝 학습을 위한 데이터 자가 증식 기술과 검증 기술과 검증 기술을 개발하는 것을 목표로 한다. 본 과제는 특별히 한국어 텍스트와 영상 데이터 자가 증식을 위해 개인방송 분야 데이터 자가 증식에 집중한다. 본 기술은 다음과 같은 세부 기술들을 포함한다.

한국어 텍스트 데이터에 대한 GANs(Generative Adversarial Networks) 기반 자가 증식 기술
영상 데이터 자가 증식을 위한 GANs 모델
자가 증식 데이터의 유효성 검증 이론 및 기술
데이터 관리 및 시각화 기술

2. 연구개발내용

2.1. 1차년도(2018) : 개인 방송 데이터 자가 증식 기술 개발 및 유효성 검증 기술 개발

과제의 목표인 개인방송 데이터 자가 증식 알고리즘과 검증 알고리즘 개발을 위해 GANs를 기반으로 하는 데이터 자가 증식 기술 개발, 검증 모델 및 생성되는 레이블링 데이터를 유지하고 관리, 보수 하는 기술을 개발한다. 연차별 개발되는 세부 기술은 아래와 같다.

한국어 텍스트 데이터 자가 증식을 위한 GANs 기반 기술 개발, 개체명, 의미역 결정, 혐오발언 데이터(혐오, 정상)에 적용
개인방송 영상 도메인의 유해 판별 데이터 자가 증식 기술 개발
데이터 유효성 검증 기술을 이용한 수동 오류 보정 기능 개발
데이터 관리, 분석 및 분석 자료 시각화 기능 개발

2.2 2차년도(2019) : 개인방송 데이터 자가 증식 기술 및 유효성 검증 기술 고도화, 일반화

한국어 텍스트 데이터 자가 증식을 위한 GANs 기반 기술 고도화, 의미결정, 혐오발언 데이터(폭력성, 선정성, 기타, 보통)에 적용
다중 클래스, 다중 레이블드 영상을 이용한 영상 데이터 자가 증식 기술 개발 (폭력성, 선정성, 기타, 보통)
모델 유효성 판별 기준 일반화 및 고도화
GUI 기반 다중 사용자 확장 학습데이터 통합 관리 학습 기술 개발

3. 연구개발성과

해당 연구의 최종 결과물은 ‘데이터 자가 증식 기술과 유효성 검정 기술’로 일정량의 레이블드 데이터를 이용하여 보다 많은 레이블드 데이터를 증식하는 기술과 이를 검정하는 기술이다. 또한 통합 관리 도구에서 자가 증식 기술을 이용하여 데이터를 증식하고 검증하며 생성된 데이터를 편리하게 관리 할 수 있다. 본 연구를 통해 개발된 데이터 자가 증식 기술과 유효성 검증 기술은 한국어 텍스트와 영상 데이터에 적용하여 그 효용성을 검증할 것이며 타 분야의 학습 데이터 생성이 가능하므로 딥러닝 기술 발전에 기여할 수 있을 것으로 생각된다. 또한 생성된 한국어 텍스트와 영상 데이터는 이 분야 연구발전에 기여할 수 있을 것이다.

결과물	기능 및 특성	목표치
논문	과제 관련 내용을 토대로 게재된 논문	국제 학회 및 저널 5편 이상
특허	과제 관련 내용을 토대로 출원/등록된 특허	총 출원 10건 등록 1건
S/W 등록	과제 중 개발된 S/W 제품 등록	S/W 등록 2건
보고서	연차별 목표 및 내용을 평가하여 결과 보고서 작성	매년 1건
자가 증식 데이터	자가 증식 기술로 생성되고 유효성 검정된 데이터	한국어 텍스트 : 1억 어절 이상 혐오발언 : 30만 문장 영상데이터 : 30만 클립
데이터 자가 증식 기술	GANs 기반의 데이터 증식 기술	TTA 공인인증기관을 통한 인증 획득
유효성 검증 기술	레이블드 데이터의 유효성을 검증하는 기술	유효성 판별 정확도 0.7(21차년도) 0.9(2차년도) 이상 달성
데이터 통합관리 도구	데이터 증식 기술 실행, 레이블링 결과 데이터 검증 및 딥러닝 적용을 위한 관리 도구	TTA 등의 공인인증기관을 통한 인증 획득

4. 활용계획 및 기대효과

딥러닝 학습 데이터를 자가증식, 유효성 검증기술을 확보함으로써 다양한 분야(한국어 분석, 응용 분야, 의료 영상, 음란물/유해 영상 등)에서 딥러닝 기술을 적용함에 있어 데이터 부족으로 인한 장애를 극복할 수 있다.
데이터 자가 증식 기술과 유효성 검증 기술 그리고 이를 편리하게 사용할 수 있는 도구를 공개하여 여러 딥러닝 및 인공지능 연구에 사용할 수 있다.
생성된 레이블링 데이터를 활용하여 다양한 응용 시스템을 개발하고 성능을 고도화할 수 있다.
빠른 시간 내에 학습 데이터를 확보함으로써 새로운 알고리즘 개발과 성능 고도화를 위한 연구에 도움을 줄 수 있다.