XiaoChiTongXue/91porn_spider

91视频网站爬虫工具，可以批量或单独爬取视频。不带参数运行程序时，进入日常爬取模式，固定每天8点爬取24小时内发布的30个评分最高的视频，评分由关键字、视频时长、作者分三项评分组成(score下的两个txt定义了关键词评分和作者评分，分数范围[-∞，100])。每周六9点会爬取本周评分最高的30个最热视频并把当周的视频整理到一个文件夹下。程序有去重机制不会重复下载同一个视频。

Go

spider91

介绍

91视频网站爬虫工具，可以批量或单独爬取视频。不带参数运行程序时，进入日常爬取模式，固定每天8点爬取24小时内发布的30个评分最高的视频，评分由关键字、视频时长、作者分三项评分组成(score下的两个txt定义了关键词评分和作者评分，分数范围[-∞，100])。每周六9点会爬取本周评分最高的30个最热视频并把当周的视频整理到一个文件夹下。程序有去重机制不会重复下载同一个视频。

软件架构

基于go1.15编写，依赖chrome浏览器、python下的m3_dl、pysocks。

安装教程

安装chrome浏览器。
安装python、m3_dl、pysocks
pip3 install m3_dl
pip3 install pysocks
编译代码
工程根目录下执行go build

使用说明

参数说明
-c 爬取页面
-u 爬取的网页可以是单个视频的页面也可以使是类似首页的多个视频的页面。
-o 视频存储路径
-p 代理地址
-t 同时爬取的视频个数
-now 爬取前X天的的视频 -n 与-now一起使用，表示存评分前X个视频
示例
单个视频爬取
./spider91 -c -u "http://91porn.com/view_video.php?viewkey=8cd0148b3fe08d4a4c2f" -p "http://127.0.0.1:10808"
单页多个视频爬取
./spider91 -c -u "http://91porn.com/v.php?category=rf&viewtype=basic&page=2" -p "http://127.0.0.1:10808"
爬取前3天评分前100的视频
./spider91 -now 3 -n 100
新增docker版本
https://hub.docker.com/repository/docker/templelv/spider91
```
docker run --restart=always -it --name spider91 \
-v /dir_to_save/:/root/spider91/save \
templelv/spider91 sh -c 'service supervisor start && /bin/bash' 
```
/dir_to_save为用户设置的视频保存路径
docker attach spider91 命令可以进入容器终端
容器终端中执行/root/spider91/update.sh 将更新代码为github上最新并编译重新执行。
代理列表通过修改配置文件更新，配置文件路径/root/spider91/proxyConfig.yaml
推荐使用passwall建立多个代理。