本程序的主要功能是爬取汽车之家上的共有多少种车型,以及爬取具体车型在网页上显示的缩略图或者是该车型的全图。
主要是用requests和beautiful soup手写的爬虫,用wget下载图片。 使用的是python2.7。
直接运行该程序,会得到一个cars.txt。
使用get_make_model.py,得到的数据是。左边的名称是一级品牌-二级品牌-车型,右边的名称是对应在汽车之家上的一个id。 使用get_model.py,得到的数据是。左边的名称是车型,右边的名称是对应在汽车之家上的一个id。
通过上一个文件爬取到的cars.txt,再对cars.txt进行处理,提取关键id。关键id用于之后的爬取。
通过上一个文件得到的car_id.txt,我们通过汽车之家官网爬取每一个车型外观的缩略图的img_src,和车型全图的url,url还要再进去处理下提取img_src才能进行图片下载。
v1和v2主要是因为汽车之家网站有一个div的class的命名不同,导致爬取的差异。所以需要使用两个版本代码进行爬取。
爬取的效果如下:
car_name | img_url | thumbnail_src
该代码使用上一级生成的针对每个车型的txt中的thumbnail_src,进行下载。 每个缩略图的尺寸是240*180。
效果如下:
该代码使用上一级生成的针对每个车型的txt中的img_url,重新抓取img_src,然后进行下载。 每个缩略图的尺寸是1024*768。