/News_Classification

使用paddlehub完成新闻分类任务

Primary LanguageJupyter Notebook

News_Classification

使用paddlehub完成新闻分类任务

依赖

  • paddle
  • paddlehub

数据集

由清华大学提供的新闻文本数据集THUCNews。THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。 类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

模型

ERNIE

持续学习语义理解框架ERNIE利用百度海量数据和飞桨(PaddlePaddle)多机多卡高效训练优势,通过深度神经网络与多任务学习等技术,持续学习海量数据和知识。基于该框架的ERNIE预训练模型,已累计学习10亿多知识,助力各NLP任务显著提升。