爬取国外一球鞋网站https://www.stadiumgoods.com
该项目是于2019年于某鱼平台上接单,帮助开发的一个爬取球鞋网站https://www.stadiumgoods.com各商品数据的一个脚本
感兴趣可联系zidutian@gmail.com
-
result.md中记录了colab平台上的运行结果,可参考;
-
在主程序中添加 url 即可运行 code.py 文件;
-
运行 code.py 文件生成的csv文件为分页爬取结果;
-
可通过其他脚本将分页爬取结果汇总至一个文件中;
-
主要通过BeautifulSoup数据包单线程爬取,分析url指向页面,伪装header爬取,主体程序架构如下:
--># 爬取所有搜索页面的url
--># 爬取各搜索页中各详情页的url
for i in 所有搜索页面的url:
--># 进入详情页,爬取各页面的详情参数
for j in 各搜索页中各详情页的url:
...
data01.csv