内容简述 这只是对多标签分类的一个练手的代码 数据爬取自豆瓣,收集了近两万部电影的标签和简介内容 使用的是scikit中的分类方法。中文分词使用的结巴分词。 文件内容 labels_summary.txt 保存的是电影数据,包含标签、和简介 labels.txt 保存的是数据中出现的labels,对于冷门的标签进行了提出 MultiLabelMovie.py 包含了构建VSM模型、分类器等,是项目的主要代码