- Items.py : 定义爬取的数据
- pipelines.py : 后处理(Post-process),存储爬取的数据
- taobao.py : 爬虫程序
- settings.py : Srapy设定,请参考 内置设定参考手册
- 代码的详细分析在我的个人博客 www.liangtianming.com
- 问题和讨论可以发到我的邮箱 tm.liang@outlook.com
- 不定期更新
- 2017.7.23
- 注意:淘宝的页面获取方式已经更新,本项目失效,复习考研期间暂停更新与讨论,考上研后再更新本项目
- 2018.1
输入关键字和搜索页数,获取在淘宝上搜索结果中所有商品的标题、链接、原价、现价、商家地址以及评论数量,并将数据存入MongoDB数据库中
- Python3
- Scrapy
- MongoDB
- redis
C:\Users>f:
F:\>cd taobao_spider
F:\taobao_spider>scrapy crawl taobao --nolog
C:\Users>d:
D:\>cd redis
D:\Redis>redis-cli
127.0.0.1:6379> LPUSH TaobaoSpider:start_urls http://taobao.com/
127.0.0.1:6379> flushdb
- 单个终端:
- 多个终端:
- 数据库: