/xiaohongshu-spider

小红书内容自动爬取,selenium+fiddler+微信小程序

Primary LanguagePython

小红书自动爬取

自动爬取小红书文章/视频,可自定义爬取内容(标题/正文/评论/回复)

效果展示(详见使用方法中的演示视频):

演示案例 txt文件 csv文件

依赖:

  • 下载python包依赖

    pip install -r requirements.txt
  • 安装谷歌浏览器和谷歌浏览器驱动,并配置环境变量
    安装教程
    check your Google browser's version, choose the closest version and download corresponding GoogleDriver from position1 or position2.And then move chromedriver.exe under C:\Program Files\Google\Chrome\Application and the same folder with your python explainer. Then add C:\Program Files\Google\Chrome\Application to your system path.

  • 安装fiddler抓包工具

    • fiddler安装教程1
    • fiddler安装教程2
    • 如果使用时界面频繁出现黄色警告 the system proxy was changed ,需要检查并删除更改代理的应用
      • 火狐浏览器插件->银联(删除)
      • easyconnect(删除)
      • 关闭其他代理软件(懂的都懂)

    目前笔者手机(华为p30)连接尚未成功,可以连接http/https但是部分应用无法联网,诸多解决办法均已尝试但仍然失败,如果有人成功请务必与我联系,本项目不需手机连接

使用方法:

  • 视频介绍 如需使用务必观看,以及可能会出现的问题
  • 文字介绍
    • 打开fiddler(保证底部导航栏有图标),设置filters->show only the following host->t.xiaohongshu.com
    • 电脑端打开微信小程序小红书(保证底部导航栏有图标)
    • 点击fiddler->file->save->select sessions->as text: 选择默认保存路径为该项目的data文件夹下(./data)
    • 如果使用的代码编辑器不是vscode,需要重新截图保存,见main.py 33行
    • 基本用法: 默认爬取 藕粉 养生 代餐的相关信息
      python main.py
    • 参数介绍
      • 加入搜索的内容,使用空格分隔
        python main.py 樱花 小鸟 
      • --target: 修改匹配数量,默认100个(小红书小程序搜索上限),可以调低
        python main.py 程序员 --target 30
      • --keep: 因为某些特殊原因小红书搜索过程中强行中断(ctrl+c)后接着之前的位置继续搜索(不建议使用)
      • --config: 配置文件的位置(不建议更改)
      • --reset: 重置配置文件

学习资料