/ManHuaDownload

海贼王漫画爬虫

Primary LanguagePython

海贼王漫画下载爬虫,从腾讯漫画获取漫画图片。利用PhantomJs模拟下滑条,动态加载图片,然后获取每个图片的url。 需要在F盘创建一个名字叫海贼王的文件夹。

采集的时候发现几个问题:
1.PhantomJs有很严重的内存泄露。
2.采集效率非常低。

针对这两个问题以后可能使用多线程+自己制作图片url来解决这个问题。

ps 这个爬虫目前不建议使用,以后会逐步更新,弄成GUI和根据使用者需求抓取漫画的完整爬虫. diff_html diff_pic time_def