/MarketSpider

淘宝、京东、拼多多、1688、京喜信息爬虫。方便自动化的获取指定关键词的商品链接、商品价格、商品名称、店铺名称、店铺链接等信息。配合Tkinter的GUI界面,可以清晰监测运行状态。Powered by Selenium+Python

Primary LanguagePythonMIT LicenseMIT

MarketSpider

Average time to resolve an issue Percentage of issues still open

Security Status

淘宝、京东、拼多多、1688、京喜信息爬虫。方便自动化的获取指定关键词的商品链接、商品价格、商品名称、店铺名称、店铺链接等信息。配合Tkinter的GUI界面,可以清晰监测运行状态。
不是专业程序员,仅为Python和web自动化爱好者,欢迎提供建议和程序改进!

免责声明

  1. 本程序仅供用于交流学习原理使用。禁止用于商业活动或其他非法用途。
  2. 对于被爬虫网站请遵守robots协议指引爬取数据。
  3. 对于不遵守以上规定的,程序编写者不承担任何责任。

快速指引

1、Python与Python包配置

  1. 正确安装Python3,建议安装Python3.8以上环境。
  2. (可选)建立Venv环境
  3. 在终端下运行pip install -r requirements.txt,安装所需包。

2、WebDriver配置

通过使用WebDriver,Selenium可以操作市场上主流浏览器。通过以下链接可以前往下载站点。下载后将其放置在本程序文件夹内即可。
注意需要使用与您浏览器安装版本相对应的WebDriver。
Google Chrome | MS Edge | Selenium-Install Drivers指引
程序默认使用Google Chrome浏览器,如果您需要使用其他浏览器,请按照下方指引更改代码。

  • 程序文件中的options = webdriver.ChromeOptions()更改为对应浏览器,如Edge则更改为options = webdriver.EdgeOptions()
  • 程序文件中的driver=webdriver.Chrome(options=options)更改为对应浏览器,如Edge则更改为driver=webdriver.Edge(options=options)

详细的指引可以参阅Selenium的Webdriver文档,点击此处跳转

3、启动对应程序开始使用

拼多多、京喜平台特别说明

拼多多、京喜平台因技术原因,使用半自动化方案,手动保存浏览器的请求,使用对应程序进行读取并保存成为CSV文件。无需使用Selenium环境。如何获取HAR文件可至HAR文件获取

文件功能和最新版本

文件名 最新版本和发布时间 用途
\ functions 自定义包
GetCookie.py 1.1
2023-4-18
用于自动化获取登录cookie
jdSpider.py 1.0
2022-7-28
京东商城爬虫程序
taobaoSpider.py 1.2
2024-4-22
淘宝网爬虫程序
1688Spider.py 1.0
2022-7-28
阿里巴巴1688爬虫程序
error.wav 错误提示音乐
requirements.txt pip依赖列表
jingxi_HAR_reader.py 1.0
2022-7-28
京喜HAR读取程序
pdd_HAR_reader.py 1.0
2022-7-28
拼多多HAR读取程序

使用教程

Github Wiki