/1688-selenium-spider

1688爬虫,通过搜索关键词采用selenium爬取指定页数的商品信息。喜欢的话点个星星(^U^)ノ~YOThe 1688 crawler uses selenium to crawl a specified number of pages of product information by searching for keywords.

Primary LanguagePython

1688爬虫(基于selenium)

项目概述:

通过搜索关键词采用selenium+selenium日志hook(亮点:自行查找相关功能,实现所有请求包括ajax动态请求的监听)爬取指定页数的商品信息,包括公司名,五项评分,综合评分,价格,所有宝贝图的图片,以及产品的规格,尺寸暂时没写。

不足之处:验证码,已经写了ip切换的功能,暂时没找到合适的ip池,需要的自行根据代码将注释取消启用,并且修改ip.txt的内容即可,ip通过http https 地址+端口直连的方式连接。在爬取频繁之后,一般是十个商品会出现一次验证码,目前采用的方式是在电脑人工切换ip刷新页面。数量不多的话影响不大。

项目更新说明:

第三版更新说明:

优化了程序,使之能完整的运行。

未来可以继续优化的步骤:效率高于扫码登录的更优方式,ip验证问题(遇到ip验证需要人力解决)

第二版更新说明:

  • 修改了退换体验分数为空时存表为-1的错误
  • 修改了成交额显示错误的问题
  • 美化了下代码

需求分析

  • 分析商品页ajax链接(下的)存储到{keyword}_{sort_type}.csv 中 (此功能在py爬虫文件均自动重新生成)

主要代码实现

其他描述:

  • 直接运行主文件

测试:

cookies容易失效,后续考虑多账号轮番登录,登录暂时需要人工

配置:

安装包:

目录下 requirements.txt文件

打开当前目录的dos窗口,输入:

pip install -r requirements.txt

本代码仅供个人参考交流探讨更优方案等。