/MultiLabelClassification

对电影进行多标签标注

Primary LanguagePython

内容简述

这只是对多标签分类的一个练手的代码

数据爬取自豆瓣,收集了近两万部电影的标签和简介内容

使用的是scikit中的分类方法。中文分词使用的结巴分词。

文件内容

  1. labels_summary.txt 保存的是电影数据,包含标签、和简介
  2. labels.txt 保存的是数据中出现的labels,对于冷门的标签进行了提出
  3. MultiLabelMovie.py 包含了构建VSM模型、分类器等,是项目的主要代码