xspider建立的目的是,做为电影推荐算法研究的一个电影爬取工具。做为学术研究,此处暂时只基于电影观影行为(未使用读书等其它信息)来进行推荐。
该工具将爬取主流的三家网站(豆瓣网、时光网、IMDB)的数据。建立相应的数据基础,供数据挖掘和推荐引擎使用。它的实现使用scrapy进行编写。
目前暂时的功能:
- 1.支持豆瓣电影、电视剧的抓取.
- 2.支持名人(演员/编剧/导演等)的抓取.
- 3.支持对用户观影行为等的抓取.
- 4.支持对电影热门短评/影评的抓取
爬虫实现:
- 1.深度优先搜索, 可配置
- 2.采用mysql存储, 去重逻辑采用redis。
- 3.支持断点续爬