本项目的功能需求来源于影视站点后端开发,所以部分代码具有特定性。
- 将
index.php
文件以及class
目录上传到云服务器,或者是本地服务器。 - 此时访问
https://域名/index.php?type=info&id=30228394
显示数据说明已经成功。 - 用MSSQL创建一个表,并将相关信息(表的信息)填写至
index.py
- 运行
index.py
提示[success]并开始写入信息,即为成功。
本项目部分基于豆瓣电影官网,部分基于豆瓣未公开的API,没有用到APIKEY,但由于豆瓣官网的限制,单IP请求次数过多可能面临短时间封禁IP的惩罚。
通过对 index.php
的Get请求获取结果
请求参数可参考:https://api.xhboke.com/doc/movie/
- 名人信息
- 影片短评
- 影片信息
- 影片影评
- 影片搜索
- 影片Tags分类
- Top250
- 豆瓣播放地址及资源网播放地址
基于 MSSQL 数据库和 Python 遍历年份写入数据。
由于豆瓣反爬虫禁IP措施,建议挂代理进行爬取,需要多线程可自行添加。
数据库表的创建参考代码输入的数据。
由于代理的原因,我只爬取了最新的1万2千部影片附在data.csv