HaJiang/scrapy..

Python

Scrapy 爬虫

windows项目流程：

1 切换至目标文件夹，Shift+鼠标右键在此处打开命令窗口
2 scrapy startproject xxx
3 cd xxx
4 scrapy genspider xxSpider www.xxx.com
5 Pycharm或者其他编辑器打开进行coding
...
6 scrapy crawl xxSpider运行爬虫

Scrapy文件结构:

    __init__  初始化文件
    items.py  定义要抓取的字段
    pipelines.py  进行信息后序处理，当spider抓取到内容（item）后就将其送至这里,然后对其清洗、去重，保存到文件或者数据库
    middlewares.py  中间件，主要是对功能的拓展你可以添加一些自定义 比如添加随机user -agent添加 proxy 
    settings.py 设置文件，用来设置爬虫的默认信息，相关功能开启与否
    spiders/  在这个文件夹下，编写自己定义的spider，可以在此文件夹下定义多个爬虫文件

items存储到mysql数据库：

    1 使用MySQL Front软件创建一个数据库，例如127.0.0.1  dangdang  goods   [title,link,comments]
    2 开启MySQL服务，右键计算机点击管理，服务，找到MySQL相关服务开启
    3 settings.py文件打开pipelines.py的注释，如下，然后在pipelines.py里面处理数据，将其存入数据库中
         ITEM_PIPELINES = {
             'dangdang.pipelines.DangdangPipeline': 300,
          }