NLP建模pipline,可用于科研实验、企业建模
- 1.数据预处理
- 2.数据集构建
- 3.预训练词向量应用(重点)
- 4.模型训练、评估、预测(重点)
- 5.模型线上化,保存java可调用pt模型文件(重点)
- 6.精细化模型评估(重点)
本项目中采用中文维基百科:下载链接 https://pan.baidu.com/s/1ZBVVD4mUSUuXOxlZ3V71ZA
下载完成后需要解压,放到Word2vec文件夹
更多中文词向量:https://github.com/chenzhongd/Chinese-Word-Vectors
来源于外卖评价,label为标签,二分类,其中0为负面评价,1为正面评价
train.txt为训练集,text.txt为测试集(测试集不能参与训练,仅能用于评估)
TextCNN 属于轻量级的模型
Paper:Convolutional Neural Networks for Sentence Classification
模型结构:
TextCNN(
(W): Embedding(2270, 300)
(Weight): Linear(in_features=300, out_features=2, bias=False)
(filter_list): ModuleList(
(0): Conv2d(1, 100, kernel_size=(3, 300), stride=(1, 1))
(1): Conv2d(1, 100, kernel_size=(4, 300), stride=(1, 1))
(2): Conv2d(1, 100, kernel_size=(5, 300), stride=(1, 1))
)
(dropout): Dropout(p=0.3, inplace=False)
)