/IgPic

下载instagram分享链接的图片和视频

Primary LanguagePython

功能

抓取instagram分享链接的图片,支持链接中包含的多张图片以及视频的抓取,前提是能科学上网

使用方法

  1. 使用python3pip管理包下载安装scrapy
  2. 将你从instagram复制的链接替换掉IgPic/IgPic/spiders/ig.py中的start_urls
  3. 进入项目的根目录运行scrapy crawl downloadIgPic
  4. 视频和图片分别存放在imagevideo目录下

难点记录

  1. 页面获取到后无法使用html定位到所需内容,所以使用抓取js脚本的方法,获取数据

  2. 重写ImagesPipelineFilesPipelineget_media_requestsitem_completed的方法重命名图片和视频,需要在settings中打开自定义的pipeline

  3. 分享链接可能包含多张图片与视频,每种不同的情况都需要考虑,因此使用scrapy shell 地址访问不同的地址,取得不同的数据写入json文本中来对比不同的地方。

  4. 文件 用途
    single_pic.txt 数据只包含一张图片
    two_pic.txt 数据包含两张图片
    pics_and_videos.txt 数据包含图片和视频
    video.txt 数据只有一个视频
  5. 利用以上json格式的文本分析