/jjwxcNovelCrawler

使用python3爬虫下载晋江小说(可下载VIP章节,app源下载)【此项目仅供学习交流使用,严禁用于商业用途,请在24小时之内删除。】

Primary LanguagePython

虽然新的写出来了,但它速度比较慢,而且还可能有许许多多小bug,出问题的时候用这个app搭配这个书源1717650765.json吧。

jjwxc


github下载:

GitHub release
蓝奏云下载:https://wwr.lanzoui.com/b02oduqmd#a5jo 密码:a5jo
采用自解压文件,将exe放到指定位置,双击打开后点击“解压”就行

此项目仅供学习交流使用,严禁用于商业用途,请在24小时之内删除。

目前找到无需反爬虫的源,所以反爬虫功能暂时退出历史舞台(做人不能太铁齿),反爬虫表依然保留在项目里,感谢各位大佬做出的贡献。

最新版使用app接口下载,无需反爬虫。感谢酷安 @关耳010225 @乃星 @viviyaaa的方案。

也可以直接去微信公众号“开源阅读”下载app,然后按教程添加女频书源

若文章无法下载,可以在issues里把网址和配置的config.yml里除了cookie以外的信息发给我。

常见问题见wiki

使用说明

如果不想配置环境,可以直接下载EXE:exe程序下载,如果直接下载太慢,可以通过这个网站下载

如果打开exe后报错,注意下载与版本匹配的config.yml文件,与exe放在同一目录下,还报错的话,在exe里填好配置,点击“保存配置”按钮,还不行就将config.yml里除了cookie以外的信息发给我,我想办法修bug。

以下是使用py文件下载的过程

环境配置

注:我写的这个程序可以在Windows10 x64系统下运行成功,其他环境可自行调整。

 1、安装python环境

建议安装python3.8x的环境。安装教程:https://blog.csdn.net/weixin_40844416/article/details/80889165

 2、安装第三方库

联网,使用管理员模式打开命令提示符(cmd),依次输入以下命令、按回车键运行

(如果下载慢,可以用pip install --index https://pypi.mirrors.ustc.edu.cn/simple/ 代替pip install

  • pip install lxml
  • pip install opencc_python_reimplemented
  • pip install requests
  • pip install PyQt5
  • pip install PyQt5-tools
  • pip install PyYAML
  • pip install selenium(用于Chrome浏览器)

(也可下载requirements.txt文件,使用cmd进入该文件所在目录,输入 pip install -r requirements.txt)

3、(可跳过)安装chormedriver

若要使用client.py获取cookie,必须执行步骤3

该程序使用Chrome87,请在以下网址安装对应的chormedriver:https://chromedriver.chromium.org/downloads

以管理员身份打开cmd,输入where python,找到python路径,将chormedriver放到python.exe所在路径下

程序使用

1、若下载非VIP章节,直接双击运行。

2、运行文件后输入小说主页网址。(例如:“http://www.jjwxc.net/onebook.php?novelid=2710871”

3、若下载VIP章节,登陆晋江(建议使用谷歌浏览器),右键点击“检查”,或按F12进入开发者模式,点击console(控制台)按钮,输入document.cookie   ,按回车,输入到对应的框里,并保存配置。

或者直接下载并打开client.py,按步骤输入用户名密码,将得到的值输入到对应的框里。

(注:cookie若失效,请重新登录晋江并及时更换,还不行就更换浏览器。)

main_epub日志记录

2024-06-06

  • 晋江更改API模式,针对此更新反爬虫规则,程序比较慢,还有一些bug。

2022-11-29

  • 将封面图片的格式转换为jpg

2022-03-27

  • 修复部分已购买的章节无法下载问题

2022-03-08

  • 新增去除一键感谢功能

2022-01-01

  • 修改网址不能匹配https的bug。

2021-11-09

  • 添加自定义标题、卷标格式功能。

2021-10-26

  • 为epub2添加网页目录
  • 获取未购买、被锁章节信息

2021-10-22

  • 使用app接口下载,无需反爬虫。
  • 添加编辑css功能。

2021-9-30

  • 新增窗口模式,可自由选择反爬虫模式(侵删)、文件下载格式以及其他必备配置。

2021-8-23

  • 感谢@fffonion大佬的反爬虫方案,可根据json文件自动解析并生成反爬虫表,该过程会比较慢。

2021-6-21

  • 推出全新版本,将数据存放在config.py中,方便使用和定制下载模式(包括cookie,繁简转换标志,章节标题模式,线程池最大容量)

2021-1-23

  • 新增乱码替换功能,对照表已全部完成,感谢starcrys,持续众筹新字体,详见issues

2021-1-21

  • 新增乱码替换功能(需要对照表,对照表仅完成部分,详见issues)
  • 修正无法创建Fonts文件夹的bug。

2021-1-19

  • 优化反爬虫处理方案,增添“只需联网、无需下载字体文件”的选择。

2021-1-18

  • 对反爬虫进行处理

2020-11-20

  • 修改程序无法处理目录、卷标特效的bug
  • 修改程序无法获取部分网站图源的bug(需科学上网)

2020-9-21

  • 调整下载文件和EPUB生成文件,使其匹配
  • 修改EPUB2生成格式,可自由选择生成的epub文件格式
  • 新增文案特效版下载,可以显示文案特效

2020-3-23

  • 使用多线程下载章节(python的多线程好像不怎么给力)
  • 优化封面保存功能
  • 文件保存格式从epub2改为epub3
  • 优化目录保存方式
  • 替换不安全符号

2020-2-14

  • 修复文案审核期间无法下载的bug
  • 将epub打包功能单独拆分到EPUB.py文件中

2020-01-05

  • 优化繁简转换方式
  • 优化内容简介和标题不匹配的bug

2019-12-20

2019-12-19

  • 优化封面后存在乱码的bug
  • 优化内容简介和标题不匹配的bug
  • 新增繁转简转换功能(若不需要此功能,将含有OpenCC('t2s').convert的所有行删除)

初始功能:

  • 添加封面(若不需要,将包含"C.xhtml"和"p.jpg"的所有行删除)
  • 添加两级目录(若不需要添加目录,删除"create_tox"函数)
  • 通过cookie下载已购买VIP章节