/jdtext_classify

京东商品评价的文本分类--goods evaluation text classification

Primary LanguagePython

京东商品评价的文本分类: 俗话说懒人创造世界.这个项目的出发点是想让懒人在评价商品时可以不用选择星级,可以根据内容自动识别好评,中评还是差评.甚至不需要打字,直接通过语音就可以评价商品.

一.运行环境 Ubuntu16.04,python2.7,mysql,不支持windows,python3 依赖包:requests,mysql-connector-python,tgrocery,numpy,pyaudio,运行程序前请先下载对应依赖包(pip install 包名)

二.详细介绍 1.包含文字评价和语音评价,语音评价是先用pyaudio录音保存音频文件后再调用百度语音识别API识别语音,最后再转换为文字进行处理. 2.训练样本是通过爬虫有针对性地爬取对应商品的评价并存入MySQL数据库中.默认爬取每类评价的前20页. 3.分类器使用的是TextGrocery,这是一个GitHub的基于SVM的文本分类的开源项目,封装了结巴分词,liblinear等,其出发点是让机器学习变得更简单.