Simplation/DouBanFilm_Spider

🕷 Use Scrapy to crawl the data of Douban movie top250 and save the data in CSV format.

Python

DouBanFilm_Spider

Use Scrapy to crawl the data of Douban movie top250 and save the data in CSV format.

采用 Scrapy 爬取豆瓣电影 top250 的数据，并将数据保存为 CSV 格式。

最最先需要安装的是 pip（pip 是 Python 的包管理工具）

sudo easy_install pip

1、首先是安装 scrapy，直接使用 pip 进行安装即可。

pip install scrapy

2、使用 scrapy 创建项目

scrapy srartproject xxx(项目名)

3、生成配置文件

scrapy genspider xxx(项目名) + 域名(要爬取网站的域名)

4、scrapy 创建的项目结构描述

scrapy.cfg: 项目的配置文件。
douban_spider/: 该项目的python模块。之后您将在此加入代码。
douban_spider/items.py: 项目中的item文件。
douban_spider/pipelines.py: 项目中的pipelines文件。
douban_spider/settings.py: 项目的设置文件。
douban_spider/spiders/: 放置spider代码的目录。

5、运行 scrapy 项目

scrapy crawl xxx(项目名)

6、数据的保存格式

保存 json 文件 scrapy crawl xxx(项目名) -o xxx(文件名).json
保存 csv 文件 scrapy crawl xxx(项目名) -o xxx(文件名).csv

7、遇到的问题

xpath 一定要匹配正确，否则无法获取到想要的信息
无法获取到数据的原因：settings 没有设置 Item_Piplines
存储本地数据库显示乱码：数据库的文件编码没有设置为 ‘utf8’
伪装中间件的两种方法：①、设置代理 Ip； ②、设置随机的 User-Agent
中间件定义后，千万记住在 settings 中启用，否则无效
爬虫的文件名和爬虫名称不能一致，否则会掉坑