/Crawler

针对某亿些小说网站的爬虫

Primary LanguagePythonMIT LicenseMIT

Crawler

快速目录

  1. sangtacviet
  2. nhimmeocf-刺猬猫分享
  3. 轻之国度
  4. (正版漫画)heros-web.com
  5. 同人小说通用
  6. imwcr
  7. 已失效内容

sangtacviet

相关文件

sangtacviet.user.js

sangtacviet.py

使用说明

请使用Tampermonkey安装此用户脚本

点击安装脚本

点击安装脚本(镜像)

安装后,在ciweimao/sfacg/qidian/等等(未列出的来源未提供优化)书籍页面会出现一个黑色的下载框,点击就会自动操作,如果点击后没有反应,可以打开控制台康康有没有报错

image

已支持云端服务,将每一次用户的结果上传至云端,可以节约所有人的时间,希望各位保留这个功能.同时,所有文件均公开,可以通过上图所示按钮访问

  1. 在sangtacviet.com书籍详情页面,点击下载相关按钮

  2. 在执行完之后,会产生一个包含所有信息的json文件,由于目前没做js的epub打包,可以先用python版本的

  3. 执行python sangtacviet.py ****.json打包epub,过程中会下载一些网络图片,请静候

  4. .tmp目录下找到成品

中文显示

恢复被官方隐藏的中文,但是请悄咪咪的用,切忌宣传,如果你不想大家都没得用的话

image

在搜索界面支持ciweimao/sfacg/linovel/wenku8的中文显示 传送门

TIPS:当然,你也可以使用控制台使用:STV.search_helper_handler()

以wenku8为例

image

高级说明

nhimmeo.cf 刺猬猫分享

相关文件

nhimmeo.user.js

nhimmeo.py

题外话

|∀` )被站长发现咯

请合理使用爬虫

如果可以的话,赞助一下这位站长

使用说明

请使用Tampermonkey安装此用户脚本

点击安装脚本

点击安装脚本(镜像)

安装后,在书籍页面会出现一个黑色的下载框,点击就会自动操作,如果点击后没有反应,可以打开控制台康康有没有报错顺,带可以来仓库发一个issue,记得带上URL地址,以及相关信息

image

已支持云端服务,将每一次用户的结果上传至云端,可以节约所有人的时间,希望各位保留这个功能.同时,所有文件均公开,可以通过上图所示按钮访问

  1. 在zh.nhimmeo.cf书籍详情页面,点击下载相关黑色系按钮,推荐使用稳定,高速有存储上限,可能无法正常运作(高速服务已不主动使用)

  2. 在执行完之后,会产生一个包含所有信息的json文件,由于目前没做js的epub打包,可以先用python版本的

  3. 执行python nhimmeo.py ****.json打包epub,过程中会下载一些网络图片,请静候

  4. .tmp目录下找到成品

高级说明

轻之国度

相关文件

lightnovel.us.user.js

lightnovel.us.py

题外话

请合理使用,禁止在任何平台传播本脚本

高级说明请参考nhimmeo.md

使用说明

请使用Tampermonkey安装此用户脚本

点击安装脚本

点击安装脚本(镜像)

image

  1. https://www.lightnovel.us/cn/series/312之类的合集详情页面,点击下载相关按钮,仅仅提供稳定相关服务

  2. 在执行完之后,会产生一个包含所有信息的json文件,由于目前没做js的epub打包,可以先用python版本的

  3. 执行python lightnovel.us.py ****.json打包epub,过程中会下载一些网络图片,请静候

  4. .tmp目录下找到成品

heros-web.com

相关文件

heros-web.com.user.js

使用说明

请使用Tampermonkey安装此用户脚本

点击安装脚本

点击安装脚本(镜像)

image

和以往不一样,功能入口在Tampermonkey中,如上图所示

image

温馨提示:请提前给与网页下载多项文件的权限

同人小说(通用)

大部分同人网站那源码都一样的东西,做了个模板,可以直接爬

相关文件

Template.py

使用说明

(main) $ python Template.py -h
usage: Book Downloader [-h] [-d DOMAIN] [-p PROTOCAL] [-i IP] [-s START] [-e END] [-m MODE] [-c CODE] [-x X]

用于下载一些模板一致的网站

options:
  -h, --help            show this help message and exit
  -d DOMAIN, --domain DOMAIN
                        网站域名
  -p PROTOCAL, --protocal PROTOCAL
                        网站支持协议
  -i IP, --ip IP        网站IP地址
  -s START, --start START
                        起始点
  -e END, --end END     终止点
  -m MODE, --mode MODE  模式
  -c CODE, --code CODE  网页编码
  -x X, --x X           高级设定

Phantom-sea © limited |∀` )

此处重点说明几个参数:

  • MODE:模式,有两个可选项:"default"和"local"
    default默认模式,爬取即时数据,生成URL文件和Data内的一个数据文件
    local本地模式,读取Data中的数据文件生成一个URL文件
  • X:高级设定,其实就是下载txt页面的路径,有单独几个网站这个路径是他们更改过的
    比如:https://www.bixiange.top/
    它的下载页面比如 https://www.bixiange.top/download/15-18931-0.html
    相对应的高级设定是/download/15
    同时,也可以更改此设定达到下载不同分类的目的
    比如,这里的15是同人分类,其他的分类ID可以自行寻找

运行完成之后会生成一个txt/url.txt的文件

通过aria2c -c --input-file=url.txt执行下载,或者使用IDM等软件进行下载

可以使用的示例网站

imwcr

相关文件

imwcr.py

针对https://down.imwcr.com/1/main编写的爬虫

IP记录:43.154.113.63

失效记录 2023.3.21

根据这个IP记录,发现了新的域名,但是502,先记录 down.suucc.com

恢复正常 2023.6.1

实际上只是拥有者更换域名而已,功能还未测试,应该差不多改改就行

已失效内容

已失效内容

trxs(原版)[已失效]

相关文件

trxs.py

前不久看见个同人小说的网站,写了个爬虫爬着玩 这里是小说网站地址

编译完成之后的程序在这下载

zxcs[已失效]

相关文件

zxcs.py

针对http://zxcs.me/编写的爬虫

IP记录:92.242.62.123

失效记录 2023.6.7

具体情况可以通过如下链接查看

https://webcache.googleusercontent.com/search?q=cache:https://zxcs.wiki/

https://web.archive.org/web/20230602155316/https://zxcs.wiki/