轻小说目标源
Closed this issue · 8 comments
真白萌
在真白萌,看见了一年前的一个公告。https://masiro.me/admin/announcementPage?ann_id=68
既然是需要登录的,很容易标记用户。发现用户严重爬虫行为直接限流或者暂时封禁就好。
不过这些小说网站基本上都顶不住大流量,因此有必要在该项目文档中重申不要使用线性探测来抓取大量小说。要么被封号,要么会造成对面网站流量激增。本地个人自用阅读应该是没有问题的。
门槛方面:必须登录。部分小说限制等级,部分小说的部分章节要求积分。
导航方面。
- 小说搜索页,位于 https://masiro.me/admin/novels
- 特定小说的主页(目录)https://masiro.me/admin/novelView?novel_id=253 目录页有些会混杂其他翻译/交流的章节。
- 小说的章节链接格式: https://masiro.me/admin/novelReading?cid=16886 一章一页。
300 论坛指的是 这个 https://www.yamibo.com/site/novel ?
这个是它的新站,300通常指bbs.yamibo.com 以论坛形式进行第一时间更新,通常会在文库epub出来前翻译完
300 论坛是论坛格式的网站,而且和日本轻小说联系不够紧密。暂时我个人不会考虑支持这个网站,目前这个项目依旧是以传统日本轻小说为主。
但是,这不意味不能支持300 论坛的爬虫抓取。而是我个人不会将其纳入一等支持的范围。目前一等支持的爬虫只有哔哩轻小说。
如果你有编程能力,可以去继承爬虫的基类,来支持300 论坛的抓取。如果想贡献代码的话,还可以发起PR请求合并。
如果需要考虑泛化的轻小说爬虫支持,那么这个项目可能不是一个好选择。 此时你应该在github寻找其他的爬虫轻小说的工具。这个项目,包括我写的很多其他项目,全部都是以传统ACGN文化为核心的。凡是不是紧密围绕传统ACGN文化的,基本不会纳入我的考虑范围。
上面的真白萌不错,以前我也了解过这个网站。它相对哔哩轻小说的优点在于个别小说更新地比哔哩轻小说新。毕竟,哔哩轻小说往往不是第一发布源,很多小说它也是爬别人的网站。因此,我认为真白萌可以进入该项目的爬虫计划候选目标源。
小说源的支持不是越多越好,而是应该关注点集中,追求资源覆盖和资源质量。
- 越多的小说源会加大维护的工作量,这是开源项目,不会有太多精力去维护的。哪天我不想写了,删库跑路才是终点。
- 这个项目的作用:轻小说爬虫 -> epub,做的只是高效聚合资源的工作。获得的只是勉强能看的epub,而不是精排的epub。
这远远没有达到我的目标,我的目标是获取精美排版的轻小说,释放生产力。现在精排轻小说的民间翻译很多都渐渐弃坑了,而且大部分工作一直都是人工堆出来的,翻译后的文本 -> sigil 编辑界面编辑 -> 不断修改 -> 导出epub。
这明显可以自动化部分工作。可以利用脚本语言+现代的web技术(主要是CSS)来自动化处理绝大部分的精排工作,这才是轻小说民间翻译活力的未来。这个假想中的项目我在本地已经调研了一段时间,理论上验证了实现的可能性,因此我希望放一部分时间到那里。因为可能要重写EbookLib,这个库很棒,但是不是为轻小说提供一等支持的,而且对CSS精排的支持很基础,达不到我的要求。
理解支持