91视频网站爬虫工具,可以批量或单独爬取视频。 不带参数运行程序时,进入日常爬取模式,固定每天8点爬取24小时内发布的30个评分最高的视频,评分由关键字、视频时长、作者分三项评分组成(score下的两个txt定义了关键词评分和作者评分,分数范围[-∞,100])。每周六9点会爬取本周评分最高的30个最热视频并把当周的视频整理到一个文件夹下。程序有去重机制不会重复下载同一个视频。
基于go1.15编写,依赖chrome浏览器、python下的m3_dl、pysocks。
- 安装chrome浏览器。
- 安装python、m3_dl、pysocks
pip3 install m3_dl
pip3 install pysocks - 编译代码
工程根目录下执行go build
-
参数说明
-c 爬取页面
-u 爬取的网页 可以是单个视频的页面也可以使是类似首页的多个视频的页面。
-o 视频存储路径
-p 代理地址
-t 同时爬取的视频个数
-now 爬取前X天的的视频 -n 与-now一起使用,表示存评分前X个视频 -
示例
单个视频爬取
./spider91 -c -u "http://91porn.com/view_video.php?viewkey=8cd0148b3fe08d4a4c2f" -p "http://127.0.0.1:10808"
单页多个视频爬取
./spider91 -c -u "http://91porn.com/v.php?category=rf&viewtype=basic&page=2" -p "http://127.0.0.1:10808"
爬取前3天评分前100的视频
./spider91 -now 3 -n 100 -
新增docker版本
https://hub.docker.com/repository/docker/templelv/spider91docker run --restart=always -it --name spider91 \ -v /dir_to_save/:/root/spider91/save \ templelv/spider91 sh -c 'service supervisor start && /bin/bash'
/dir_to_save为用户设置的视频保存路径
docker attach spider91 命令可以进入容器终端
容器终端中执行/root/spider91/update.sh 将更新代码为github上最新并编译重新执行。
代理列表通过修改配置文件更新,配置文件路径/root/spider91/proxyConfig.yaml
推荐使用passwall建立多个代理。