/scrapy..

Primary LanguagePython

Scrapy 爬虫

windows项目流程:

1 切换至目标文件夹,Shift+鼠标右键在此处打开命令窗口
2 scrapy startproject xxx
3 cd xxx
4 scrapy genspider xxSpider www.xxx.com
5 Pycharm或者其他编辑器打开进行coding
...
6 scrapy crawl xxSpider运行爬虫

Scrapy文件结构:

    __init__  初始化文件
    items.py  定义要抓取的字段
    pipelines.py  进行信息后序处理,当spider抓取到内容(item)后就将其送至这里,然后对其清洗、去重,保存到文件或者数据库
    middlewares.py  中间件,主要是对功能的拓展你可以添加一些自定义 比如添加随机user -agent添加 proxy 
    settings.py 设置文件,用来设置爬虫的默认信息,相关功能开启与否
    spiders/  在这个文件夹下,编写自己定义的spider,可以在此文件夹下定义多个爬虫文件

items存储到mysql数据库:

    1 使用MySQL Front软件创建一个数据库,例如127.0.0.1  dangdang  goods   [title,link,comments]
    2 开启MySQL服务,右键计算机点击管理,服务,找到MySQL相关服务开启
    3 settings.py文件打开pipelines.py的注释,如下,然后在pipelines.py里面处理数据,将其存入数据库中
         ITEM_PIPELINES = {
             'dangdang.pipelines.DangdangPipeline': 300,
          }