/DNN_CWS

利用深度学习实现中文分词

Primary LanguagePython

基于深度学习的中文分词

使用TensorFlow实现基于深度学习的中文分词

本项目使用python3编写,没有支持python2的计划。

注:本项目主要是为了进行中文分词等相关自然语言处理研究而创建,暂时不推荐在正式的生产环境使用,另外本项目目前还在开发阶段

使用方法

准备

  1. 安装tensorflow:
pip install tensorflow
  1. clone本项目至本地.

  2. 运行文件init.py,生成训练用数据

开始使用

在本项目文件夹下创建一个文件,在里面添加如下代码并运行:

from seg_dnn import SegDNN
import constant

cws = SegDNN(constant.VOCAB_SIZE,50,constant.DNN_SKIP_WINDOW)
print(cws.seg('我爱北京***')[0])

详细示例可见文件test.py

相关代码文件说明

  • seg_dnn.py: 使用(感知机式)神经网络进行中文分词,对应论文1
  • seg_lstm.py: 使用LSTM神经网络进行中文分词,对应论文2
  • seg_mmtnn.py: 使用MMTNN网络进行中分分词,对应论文3
  • prepare_data.py: 预处理语料库,包括msr和pku
  • init.py: 用于生成进行训练和测试的数据的脚本文件

参考论文:

Todo List

  • 支持pip
  • 添加更加详细的注释
  • 提供词性标注功能