pixiv-crawler is a reptile for a website which named pixiv
- 获取数据前要登录pixiv,可以使用
--set-cookie
保存PHPSESSID
,具体的值去浏览器查看
crawlP --set-cookie 'vfiy123_18237qde'
# or
crawlU --set-cookie 'vfiy123_18237qde'
如果 PHPSESSID
更新了,记得更新保存的 PHPSESSID
- 输入illust_id,爬取一张图片单张源图片
crawlP -i 67844926
- 输入url,爬取一张图片单张源图片
crawlP -u 67844926
- 指定输出路径
crawlP -i 67844926 -o '~/pixiv-imgs'
-
未指定输出文件夹时
- 在运行命令的目录创建文件夹,名称中加入日期,如果是爬取作者页面的内容则在最后加入作者名称;
- 日期格式: 2018-04-08
- 文件夹名称: 日期 pixiv (i.e. "2018-04-08 pixiv")
-
指定文件名,{fn}代表图片的源文件名
crawlP -i 67844926 -n 'sometext{fn}sometext'
-
根据用户id分析用户的作品
- 文件夹命名格式:(日期 pixiv 作者名称)
- 爬取用户的作品或者收藏时提供以下可选项
- 1:增加起始页和结束页设置
- 2:增加爬取的图片个数个数限制
- 3:可以设置只爬取某一页
- 优先级:3>2>1
-
根据用户id获取所有作品
crawlU -i 3869665
- 根据url获取所有作品
crawlU -u 'https://www.pixiv.net/member.php?id=3869665'
- 根据用户id获取作品,限制数量为12张
crawlU -i 3869665 -c 12
- 根据用户id获取用户的所有公开的收藏 (获取id为3869665的用户的所有收藏
crawlU -i 3869665 -t 'bookmark'
- 根据用户id获取指定的某一页的图片(作品或收藏) (获取id为3869665的用户的第二页作品
crawlU -i 3869665 -p 2
- 根据用户id获取从指定的页数开始的所有图片 (获取id为3869665的用户的第二页开始的作品
crawlU -i 3869665 -s 2
- 根据用户id获取到指定的页数为止的所有图片 (获取id为3869665的用户的第1页到第5页的作品
crawlU -i 3869665 -f 5
- 指定输出路径
crawlU -i 3869665 -o '~/pixiv-imgs'
-
未指定输出文件夹时
- 在运行命令的目录创建文件夹,名称中加入日期,如果是爬取作者页面的内容则在最后加入作者名称;
- 日期格式: 2018-04-08
- 文件夹名称: 日期 pixiv 作者 (i.e. "2018-04-08 pixiv xxx")
-
指定文件名,{fn}代表图片的源文件名
crawlU -i 3869665 -n 'sometext{fn}sometext'
- 分析特辑的图片数据
- 抓取图片页面的推荐图片数据