/Crawler

拉钩 | 豆瓣 | 链家爬虫项目的合集

Primary LanguagePython

本仓库下包括拉钩、豆瓣和链家三个爬虫

拉钩抓取全部公司介绍信息

运行文件为lagou.py,由于拉钩网对ip有限制,采用更换代理ip的形式进行反爬虫,0103.txt为可用的代理ip,运行时lagou.py随机使用代理ip
拉钩抓取数据部分截图

链家抓取二手房信息数据

采用scrapy框架抓取,运行文件为run.py,在控制台下直接运行即可,无需在cmd下启动
链家爬取数据部分截图

链家项目的详细介绍请见知乎专栏:https://zhuanlan.zhihu.com/p/25132058?refer=pythoncrawl

豆瓣电影信息抓取

按电影分类爬取豆瓣上全部电影信息,共87000余条数据。
包括读取电影分类信息GetPage.py,爬取各类别下电影详情介绍FullContents.py。
豆瓣电影信息的详细介绍请见知乎专栏:https://zhuanlan.zhihu.com/p/24771128?refer=pythoncrawl