[Corpus] Common crawl ko
lovit opened this issue · 3 comments
lovit commented
http://data.statmt.org/cc-100/
이 내용은 #187 에 반영하도록 하겠습니다
lovit commented
- cc-100 corpus 의 다운로드 속도가 빠른 편이 아닙니다. mirroring 이 가능한지 알아봅니다.
lovit commented
cc-100 데이터는 LANG.txt.xz
형식으로 제공되며, xz
파일을 unpack 하기 위해 lzma
Python package 를 이용합니다. pyenv
를 이용할 때 다음의 오류가 발생할 수 있습니다.
from _lzma import *
ModuleNotFoundError: No module named '_lzma'
Python 이 아닌, pyenv 의 오류로, 다음처럼 해결하면 됩니다.
(MacOS)
pyenv uninstall x.y.z
brew install xz
pyenv install x.y.z
(Ubuntu)
pyenv uninstall x.y.z
sudo apt-get install lzma
pyenv install x.y.z
lovit commented
- 데이터 통계
file | size | num lines | num words | num characters |
---|---|---|---|---|
ko.txt.xz |
13G | - | - | - |
ko.txt |
54G | 390,127,563 | 6,865,713,849 | 58,150,167,722 |