Pixiv-Crawler

English Version
这是一个scrapy框架的爬虫基于win10、Python 3.6.2 64位、Scrapy 1.4.0开发
在Ubuntu 16.04、Python 3.5.2 64位
Archlinux、Python 3.6.2 64位
win10、Python 3.6.2、Python 3.5.2下测试成功

功能

我的收藏导出
画师作品导出
搜索图片导出
日榜导出
所有导出均支持图片大小筛选
指定导出位置

未完成部分

增加一些其他的插画网站
一些细节
多图片网页暂不能命名文件

requirements

python
scrapy
requests
pillow
pypiwin32 // 可能需要
imageio //下载gif时需要
如果还缺少什么，一般直接pip install就可以了

使用方法

先在settings.ini进行配置，然后在main.py文件目录下进入cmd python main.py

Setting文件配置说明

[PRJ]  
TARGET = COLLECTION  // 四种执行方式之一 COLLECTION  ARTIST SEARCH DAILY 对应 收藏导出 画师作品导出 搜索内容导出 日榜导出
ACCOUNT = 
PASSWORD = 

[IMG] 
MIN_WIDTH = 0	//图片筛选条件
MIN_HEIGHT = 0
MIN_FAV = 0		
STORE_PATH = C:\example\images		// 图片储存目录，默认为工程目录下的image
R18 = False		//仅下载R18
MULI_IMG_ENABLED = False	// 是否下载图集

[ART]	// 不受IMG中的收藏数限制
ID = 123456 // 画师ID，多个以空格分隔

[SRH]
TAGS = TAG_A TAG_B ... // 搜索内容

[DAILY] // 不受IMG中的收藏数限制

其他

如果在浏览器无法登陆pixiv或爬取时速度较慢，可以尝试修改host文件
由于P站限制，搜索功能最多搜索1000页，可以通过添加类似“1000users入り”（不含引号）这样的tag来缩小搜索范围
请确保用户语言为简体中文
如果提示setting文件编码问题，请尝试在编辑settings.ini文件时使用utf-8编码

版本日志

V1.2.1

指定目录不存在时自动创建
增加图集的下载和Title抓取
同时抓取图片相关信息，以json格式存储

V1.2

增加了日榜导出功能
增加了settings文件格式检查

V1.1

可以同时添加多个画师
修复搜索时日语编码问题
修改了setting文件结构，可以配置默认账号密码
修复了打印日志上的一些问题

V1.0

初始版本

最后，初次写爬虫，写得不是很好，有任何问题欢迎指教

CaulyKan/Pixiv-Crawler