ko-nlp/Korpora

[Corpus] Common crawl ko

lovit opened this issue · 3 comments

lovit commented

http://data.statmt.org/cc-100/

이 내용은 #187 에 반영하도록 하겠습니다

lovit commented
  • cc-100 corpus 의 다운로드 속도가 빠른 편이 아닙니다. mirroring 이 가능한지 알아봅니다.
lovit commented

cc-100 데이터는 LANG.txt.xz 형식으로 제공되며, xz 파일을 unpack 하기 위해 lzma Python package 를 이용합니다. pyenv를 이용할 때 다음의 오류가 발생할 수 있습니다.

from _lzma import *

ModuleNotFoundError: No module named '_lzma' 

Python 이 아닌, pyenv 의 오류로, 다음처럼 해결하면 됩니다.

(MacOS)

pyenv uninstall x.y.z
brew install xz
pyenv install x.y.z

(Ubuntu)

pyenv uninstall x.y.z
sudo apt-get install lzma
pyenv install x.y.z
lovit commented
  • 데이터 통계
file size num lines num words num characters
ko.txt.xz 13G - - -
ko.txt 54G 390,127,563 6,865,713,849 58,150,167,722