- 下载语料库
中文语料库中,质量高而又容易获取的语料库,应该就是维基百科的中文语料,而且维基百科相当厚道,每个月都把所有条目都打包一次,下载的时候下载最新的就可以了。
下载地址 - 提取语料
但是使用维基百科语料还是有一定门槛的,直接下载下来的维基百科语料是一个带有诸多html和markdown标记的文本压缩包,基本不能直接使用,所以需要从中提取中有用信息。
这里使用的是WikiExtractor,使用方法也很简单:- 先下载工具代码
git clone https://github.com/attardi/wikiextractor.git
- 然后安装
sudo python3 setup.py install
- 使用方法
WikiExtractor.py -b 500M -o zhwiki zhwiki-latest-pages-articles.xml.bz2
-o 指的是输出文件夹路径 -b 指的是提取后语料语料文件的切分大小
- 繁体转简体
维基百科上有很多繁体文章,需要将其转换为简体,这里我们使用opencc工具。 使用说明地址:opencc- 安装方式
# 安装命令行工具 sudo apt-get install opencc # 安装Python接口 sudo pip install opencc
- 使用方式
- 命令行使用
opencc -i wiki_00 -o zh_wiki_00 -c zht2zhs.ini
- 代码中使用
from opencc import OpenCC # t2s 繁体变简体 opencc1 = OpenCC("t2s") res = opencc1.convert(s).strip()