/douban

基于 Php 和 Python 以及 MSSQL 的豆瓣电影爬虫

Primary LanguagePHP

关于本项目

本项目的功能需求来源于影视站点后端开发,所以部分代码具有特定性。

如何使用?

  1. index.php 文件以及 class目录上传到云服务器,或者是本地服务器。
  2. 此时访问 https://域名/index.php?type=info&id=30228394 显示数据说明已经成功。
  3. 用MSSQL创建一个表,并将相关信息(表的信息)填写至index.py
  4. 运行 index.py 提示[success]并开始写入信息,即为成功。

豆瓣API(PHP部分)

本项目部分基于豆瓣电影官网,部分基于豆瓣未公开的API,没有用到APIKEY,但由于豆瓣官网的限制,单IP请求次数过多可能面临短时间封禁IP的惩罚。

豆瓣API

通过对 index.php 的Get请求获取结果

请求参数可参考:https://api.xhboke.com/doc/movie/

  • 名人信息
  • 影片短评
  • 影片信息
  • 影片影评
  • 影片搜索
  • 影片Tags分类
  • Top250
  • 豆瓣播放地址及资源网播放地址

爬虫

基于 MSSQL 数据库和 Python 遍历年份写入数据。

由于豆瓣反爬虫禁IP措施,建议挂代理进行爬取,需要多线程可自行添加。

数据库表的创建参考代码输入的数据。

结果

由于代理的原因,我只爬取了最新的1万2千部影片附在data.csv