sda96/AIFFEL_3rd_hackerton_TUNiB_DKTC

이벽호 진행상황

Closed this issue · 5 comments

테스트
멋진 툴 GITHUB

테스트 멋진 툴 GITHUB

저도 그렇게 생각합니다.

지난주 토요일에 중요한 특강이 있었네요.... 제가 꼭 봤어야 했던 건데.... 그래도 동영상과 pdf자료로 많은 도움이 되었습니다. 이리저리 자료만 찾다보니 막상 코드를 실행하는 것을 막연히 두려워서 뒷전으로 미뤘는데....이제 본격적으로 진행을 해야겠네요.....

  1. 금주(1월31일~2월4일)
  • 데이터증강 관련 자료 검색
  • 파이토치 기본 습득
  1. 다음주할 일
  • 소상공인 고객주문 응대 데이타 일반대화 카테고리 자료화
  • 오자 수정/데이터 증강 back translation 구현
  • 1차 발표 준비 지원

소상공인 고객주문-응대 대화자료.

  • 본 데이터는 음성자료를 텍스트로 전환되어 어색한 표현 및 오자도 많이 보인다.
  • 뷰티 분야의 대화를 살펴보고 있는데, 서비스를 제공하면서 이루어지는 대화가 많으며 서비스 제공자의 일방적인 이야기 흐름인 경우가 자주 보인다. 때문에 c/s의 번갈아가며 이루어지는 대화랑 차이가 있다.
  • 감성분류 컬럼이 있으나 대부분(99%) m으로 의미가 없음.

위의 이유로 데이터 증강에서 작업 순서를 다음과 같이 설정하고자 한다.

  1. 오자 수정 : pororo
  2. back translation : pororo
  3. 문장 순서 교체 : koeda
  4. 문구 교체 : pororo

<3차주 진행사항>

  1. 역번역 : 뽀로로
    • 박창현님 베이스라인에서 구현
    • 여러 중간 언어를 한꺼번에 가동하려 하였으나 1개 언어씩만 가능 추가 검증
    • 1개 언어 처리하는데 4000개 문장 처리에 4시간 30분 소요
    • 파일로 저장하려 하였으나, 저장 및 로더 이슈
  2. 역번역 : 파파고
    • API사용을 위한 개발자 등록 및 API 등록/사용법 숙지
    • 11일 구현 및 소요시간 체크 예정
  3. 역번역 : 구글 번역
    • API사용법 탐색 중