데이터 & 토크나이저 구축
Closed this issue · 2 comments
eubinecto commented
How?
- 사용할 데이터 = 네이버 감성분석 데이터
- 데이터 로드 방법 = 내가 직접 구축하는 것보다
korpora
로 불러오는게 가장 깔끔하다. - 풀고자하는 문제 = 긍/부정 감성분석. 멋사에서 강의를 했을 당시, 이게 seq2seq 문제보다 초보자에게 설명하기 쉬운 문제였다 (seq2seq는 autoregressive training, beam search 등 추가적으로 학습해야하는 것이 많아, 모델의 inductive bias에 집중하는 것이 힘들다). 특히 마지막에 attention을 구현했을 때, 긍 / 부정을 예측할 때 어떤 단어에 초점을 맞추는지 확인하기에도 좋다.
To-do's
-
fetch_nsmc()
정의하기 - nsmc로 토크나이저 구축하기 (
run_build_tokenizer
) -
NSMC
데이터 모듈 정의하기 -
explore_cleanrnns_datamodules_nsmc.py
- nsmc raw 버전을 wandb에 올리기
run_build_nsmc.py
- 그리고 이 코드는 어차피 다시 사용할 필요가 없음. 하지만 혹시라도.. 나중에 다시 사용하고 싶을 때를 대비해서, git tag를 미리하자. (
nsmc:raw
)
- 그리고 이 코드는 어차피 다시 사용할 필요가 없음. 하지만 혹시라도.. 나중에 다시 사용하고 싶을 때를 대비해서, git tag를 미리하자. (
- nsmc preprocessed 버전을 wandb에 올리기
run_build_nsmc.py
- 토크나이저 구축을 위한 데이터를 wandb에서 가져오도록 설명하기
eubinecto commented
Disutils deprecation?
DEPRECATION: Configuring installation scheme with distutils config files is deprecated and will no longer work in the near future. If you are using a Homebrew or Linuxbrew Python, please see discussion at https://github.com/Homebrew/homebrew-core/issues/76621
3.9 -> 3.10으로 넘어가면서, disutils는 더이상 지원을 해주지 않나보다.
Homebrew/homebrew-core#76621 (comment)
하지만 여기를 확인해보니... 지금 당장 해결해야할 문제는 아니라고 명시하고 있다.
그냥 무시해도 될 것 같다. 어차피 호환성 문제로 함부로 3.10으로 올리지는 못한다.
eubinecto commented
이참에 wandb table을 각잡고 학습을 해보자
https://docs.wandb.ai/guides/data-vis/tables
- 웹에서 데이터를 시각화할 수 있다
- Korpora에서 언제 데이터가 사라질지 모르는데, 내 private 스페이스에 저장해놓는 것도 나쁘지 않다
- 다른 사람들에게 데이터의 분석결과를 공유할 수 있다