[Corpus] Common crawl ko

Question

lovit opened this issue 4 years ago · 3 comments

이 내용은 #187 에 반영하도록 하겠습니다

Answer 1 · 2021-01-24T11:51:06.000Z

Answer 2 · 2021-01-24T19:12:30.000Z

cc-100 데이터는 LANG.txt.xz 형식으로 제공되며, xz 파일을 unpack 하기 위해 lzma Python package 를 이용합니다. pyenv를 이용할 때 다음의 오류가 발생할 수 있습니다.

from _lzma import *

ModuleNotFoundError: No module named '_lzma'

Python 이 아닌, pyenv 의 오류로, 다음처럼 해결하면 됩니다.

(MacOS)

pyenv uninstall x.y.z
brew install xz
pyenv install x.y.z

(Ubuntu)

pyenv uninstall x.y.z
sudo apt-get install lzma
pyenv install x.y.z

Answer 3 · 2021-01-24T19:33:43.000Z

file	size	num lines	num words	num characters
`ko.txt.xz`	13G	-	-	-
`ko.txt`	54G	390,127,563	6,865,713,849	58,150,167,722