eubinecto/the-clean-rnns

데이터 & 토크나이저 구축

Closed this issue · 2 comments

How?

  • 사용할 데이터 = 네이버 감성분석 데이터
  • 데이터 로드 방법 = 내가 직접 구축하는 것보다 korpora 로 불러오는게 가장 깔끔하다.
  • 풀고자하는 문제 = 긍/부정 감성분석. 멋사에서 강의를 했을 당시, 이게 seq2seq 문제보다 초보자에게 설명하기 쉬운 문제였다 (seq2seq는 autoregressive training, beam search 등 추가적으로 학습해야하는 것이 많아, 모델의 inductive bias에 집중하는 것이 힘들다). 특히 마지막에 attention을 구현했을 때, 긍 / 부정을 예측할 때 어떤 단어에 초점을 맞추는지 확인하기에도 좋다.

To-do's

  • fetch_nsmc() 정의하기
  • nsmc로 토크나이저 구축하기 (run_build_tokenizer)
  • NSMC 데이터 모듈 정의하기
  • explore_cleanrnns_datamodules_nsmc.py
  • nsmc raw 버전을 wandb에 올리기 run_build_nsmc.py
    • 그리고 이 코드는 어차피 다시 사용할 필요가 없음. 하지만 혹시라도.. 나중에 다시 사용하고 싶을 때를 대비해서, git tag를 미리하자. (nsmc:raw)
  • nsmc preprocessed 버전을 wandb에 올리기 run_build_nsmc.py
  • 토크나이저 구축을 위한 데이터를 wandb에서 가져오도록 설명하기

Disutils deprecation?

DEPRECATION: Configuring installation scheme with distutils config files is deprecated and will no longer work in the near future. If you are using a Homebrew or Linuxbrew Python, please see discussion at https://github.com/Homebrew/homebrew-core/issues/76621

3.9 -> 3.10으로 넘어가면서, disutils는 더이상 지원을 해주지 않나보다.

Homebrew/homebrew-core#76621 (comment)

하지만 여기를 확인해보니... 지금 당장 해결해야할 문제는 아니라고 명시하고 있다.

그냥 무시해도 될 것 같다. 어차피 호환성 문제로 함부로 3.10으로 올리지는 못한다.

이참에 wandb table을 각잡고 학습을 해보자

https://docs.wandb.ai/guides/data-vis/tables

  1. 웹에서 데이터를 시각화할 수 있다
  2. Korpora에서 언제 데이터가 사라질지 모르는데, 내 private 스페이스에 저장해놓는 것도 나쁘지 않다
  3. 다른 사람들에게 데이터의 분석결과를 공유할 수 있다