lightnovel-center/linovelib2epub

轻小说目标源

Closed this issue · 8 comments

  • 真白萌,爬取难度尚可,需要登录,图源分辨率符合规范但有些有被劣化
  • 300论坛,图源质量高,需指定帖子id,需登录,爬取难度高,需支持选择楼层或检测Strong 元素等
wdpm commented

真白萌

在真白萌,看见了一年前的一个公告。https://masiro.me/admin/announcementPage?ann_id=68

Snipaste_2023-02-03_11-28-32

既然是需要登录的,很容易标记用户。发现用户严重爬虫行为直接限流或者暂时封禁就好。

不过这些小说网站基本上都顶不住大流量,因此有必要在该项目文档中重申不要使用线性探测来抓取大量小说。要么被封号,要么会造成对面网站流量激增。本地个人自用阅读应该是没有问题的。

门槛方面:必须登录。部分小说限制等级,部分小说的部分章节要求积分。

导航方面。


300 论坛指的是 这个 https://www.yamibo.com/site/novel

这个是它的新站,300通常指bbs.yamibo.com 以论坛形式进行第一时间更新,通常会在文库epub出来前翻译完

wdpm commented

300 论坛是论坛格式的网站,而且和日本轻小说联系不够紧密。暂时我个人不会考虑支持这个网站,目前这个项目依旧是以传统日本轻小说为主。
但是,这不意味不能支持300 论坛的爬虫抓取。而是我个人不会将其纳入一等支持的范围。目前一等支持的爬虫只有哔哩轻小说。
如果你有编程能力,可以去继承爬虫的基类,来支持300 论坛的抓取。如果想贡献代码的话,还可以发起PR请求合并。

如果需要考虑泛化的轻小说爬虫支持,那么这个项目可能不是一个好选择。 此时你应该在github寻找其他的爬虫轻小说的工具。这个项目,包括我写的很多其他项目,全部都是以传统ACGN文化为核心的。凡是不是紧密围绕传统ACGN文化的,基本不会纳入我的考虑范围。

上面的真白萌不错,以前我也了解过这个网站。它相对哔哩轻小说的优点在于个别小说更新地比哔哩轻小说新。毕竟,哔哩轻小说往往不是第一发布源,很多小说它也是爬别人的网站。因此,我认为真白萌可以进入该项目的爬虫计划候选目标源。

wdpm commented

小说源的支持不是越多越好,而是应该关注点集中,追求资源覆盖和资源质量。

  • 越多的小说源会加大维护的工作量,这是开源项目,不会有太多精力去维护的。哪天我不想写了,删库跑路才是终点。
  • 这个项目的作用:轻小说爬虫 -> epub,做的只是高效聚合资源的工作。获得的只是勉强能看的epub,而不是精排的epub

这远远没有达到我的目标,我的目标是获取精美排版的轻小说,释放生产力。现在精排轻小说的民间翻译很多都渐渐弃坑了,而且大部分工作一直都是人工堆出来的,翻译后的文本 -> sigil 编辑界面编辑 -> 不断修改 -> 导出epub

这明显可以自动化部分工作。可以利用脚本语言+现代的web技术(主要是CSS)来自动化处理绝大部分的精排工作,这才是轻小说民间翻译活力的未来。这个假想中的项目我在本地已经调研了一段时间,理论上验证了实现的可能性,因此我希望放一部分时间到那里。因为可能要重写EbookLib,这个库很棒,但是不是为轻小说提供一等支持的,而且对CSS精排的支持很基础,达不到我的要求。

理解支持

wdpm commented

@comsoi 真白萌在有生之年终于被实现了

wdpm commented

@comsoi 得益于良好的代码抽象,现在添加对一般门槛的新小说网站的支持已是非常简单的事情了。因此我放宽了以前对轻小说源的限制。
百合会新站的爬虫已被我重新提上计划,目前正在实现中。而百合会的旧站(BBS)那个,我需要一些典型的轻小说案例地址链接,例如

  • 一本书只有单卷
  • 一本书非常多卷
  • 一本书含有部分需要coin购买的章节。

如果你能直接提供这些样品URL,将有较大的帮助。

_操_逼_视频,你懂的 点击进入

_操_逼_视频,你懂的 点击进入

讨聘辞惩谢闪谔练钒魏墙堪擞蛊勇臣云茨以比