NobodyWHU/MultiLabelClassification

对电影进行多标签标注

Python

内容简述

这只是对多标签分类的一个练手的代码

数据爬取自豆瓣，收集了近两万部电影的标签和简介内容

使用的是scikit中的分类方法。中文分词使用的结巴分词。

文件内容

labels_summary.txt 保存的是电影数据，包含标签、和简介
labels.txt 保存的是数据中出现的labels，对于冷门的标签进行了提出
MultiLabelMovie.py 包含了构建VSM模型、分类器等，是项目的主要代码