/bxwx

笔下文学爬虫

Primary LanguagePython

本爬虫爬取笔下文学(https://m.bxwz9.org)小说资源, 使用方式:从网站中找到想要爬取的小说章节,复制开始爬取 的详解链接,输入储存路径,运行,爬虫会从解析链接保存当 前页面章节内容,然后自动获取下页链接,再次爬取,直到 全部完成。

5月1日更新

由于笔下文学原站点改版,新站名为新笔下文学 导致爬虫匹配不到原有的元素结构,现已根据新 站进行改版,使用方法不变,由于新站结构问题 ,导致每章文章下方有"上一页,目录,下一页 "等字样,本可以匹配删除,但由于担心文中出 现此文字删除会导致文章不完整,所以保留下来 ,待后续更新解决此问题

================================== 5月9号更新 1 解决"上一章....."等残留字段问题 2 增加Log日志,每次运行会记录下结束时url 3 基于Log日志增加记忆模式,用于继续上次结束时url继续爬取 4 优化文件open方式

本次更新主要为连载中的小说增加了记忆功能方便用户使用。