ZEACENT/MovieStarPredict

豆瓣电影爬虫，建立电影相关信息与评分模型，自定义信息预测电影评分。Douban movie crawler, build film-related information and scoring model, customize information to predict film scoring.

PythonGPL-3.0

使用scrapy对豆瓣3个电影标签的json进行电影爬取：获取json的详细页url，进入url获取必要的信息。

将数据写入mongoDB数据库。

数据分析读取mongoDB数据，将数据进行量化并高斯分布。

分别使用正常数据集合，Oversampled数据集，进行训练模型，测试，绘制混淆矩阵，得出recall和precision。

自定义电影信息，让模型预测该电影的得分是否高于6分。结果如下：