/ComicCrawlerForQQ

用于爬取腾讯动漫上的航海王(其他的也行)漫画图片

Primary LanguagePython

腾讯动漫爬虫

  • 爬取腾讯动漫上的漫画
  • 环境:py3 第三方库:selenium,requests

太监预告!!!

   surface + bilibili漫画uwp,体验满分,强烈推荐大家使用
   
   再加上没什么人用,以后就缓慢更新

食用方法

  • 1.下载py脚本
    • 原脚本后缀名为pyw(无窗口),可改为py以获得输出信息
  • 2.如果你有chrome浏览器的话,仅需下载chromedriver.exe
  • 3.否则,根据你的电脑下载对应的IEDriverServer(32/64).exe (在将来支持)
  • 注意:XXX(chromedriver).exe必须和脚本放在同一目录下
  • 4.通过命令行打开脚本
    • 参数选项:

          第一个参数
          1.无 将按配置文件的默认设置进行爬取,无配置文件报错 无后接详细配置参数
          2. m (modify file) 在配置文件的基础上进行修改(永久性) 后接可选的详细配置参数,见下
          3. t (temporary) 在配置文件的基础上,进行临时性的爬取  后接可选的详细配置参数,见下
          4. s (set file) 建立一个配置文件,若之前已经存在,则会被覆盖,修改参数也可通过直接修改配置文件完成  后接必选的详细配置参数,见下
          5. h 输出帮助文档
          
          具体的参数配置 mf/t 下列参数均为可选参数 s则必须包含下列所有参数(除-e外)
          -c xxx 如 -c 505430/  将要爬取的漫画设置为海贼王 从你要爬取的漫画的url中取得
          -se xxx 如 -se 145  将开始爬取的话数设定为第145话 !!!(不包括第145话)!!!
          -n xxx 如 -n 5  从设置的开始爬取话数开始,一共爬取5话(如有更新),默认为4
          -p xxx 如 -p D:\\tem\\  将漫画图片的保存路径设置为D:\\tem\\
          -e xxx 如 -e 13322468550@163.com  设置将爬取结果以邮件方式发送的发送者邮箱  !!!此参数后必须带有以下的参数 -r xxx 爬取结果的收件人邮箱 -psw xxx 发送邮箱的密码
          
          示例:
          脚本名.pyw s -c 505430/ -se 145 -n 5 -p D:\tem\ -e 133xxxx8550@163.com -r 757xxx393@qq.com -psw xxx
          第一次使用脚本或需要生成新的配置文件 爬取海贼王 从145集开始 连续爬取5话 爬取的图片保存在D:\tem\下 最后的爬取结果通过133xxxx8550@163.com发送到757xxx383@qq。com 其中发送邮箱的密码是xxx
          
          *由于本人相当懒,暂时不打算做选项的输入检测
      

使用说明

  • 第一次使用,必须通过s参数来增加一个配置文件,且必须指定所有的可选参数,具体参数设置见上,示例见下

    脚本名.pyw s -c 505430/ -se 145 -n 5 -p D:\tem\ -e 133xxxx8550@163.com -r 757xxx393@qq.com -psw xxx
    第一次使用脚本或需要生成新的配置文件 爬取海贼王 从145集开始 连续爬取5话 爬取的图片保存在D:\tem\下 最后的爬取结果通过133xxxx8550@163.com发送到757xxx383@qq。com 其中发送邮箱的密码是xxx
    
  • 请自行检查是否已经更新到需要爬取的话数,当爬虫爬到最后一话或已经越界时,爬虫会自动退出而没有提示

  • 配置文件保存至在当前工作目录,命名为setting.csv,可直接修改配置文件,可修改脚本中的DEFAULT_FILE_NAME修改文件命名。

  • 理论上来说可以爬取所有的动漫,但本人只测试了海贼王,如有不兼容的漫画,请提issue,作者很闲。

  • 在爬取得到图片后,建议使用Kindle Comic Converter生成mobi漫画,在kindle上看会更舒服哦。

  • 爬取结果将通过邮件发送到指定邮箱 (配置文件)。

碎碎念(特性/介绍)

  • 使用headless chrome + selenium爬取
  • 一共会启动三个进程,主进程在自己爬取漫画之前,还负责任务的分配,每个进程对图片的爬取则会用多线程
  • 爬虫会将结束的最大集数写入配置文件,下次运行爬虫时,可以选择按照最后爬取的集数再往下爬取4集 (可通过命令参数指定一临时量或在脚本修改DEFAULT_EACH_NUM参数)
  • 可用于计划任务

等哪天我不再摸鱼的时候

  • 重构和优化,加快爬取速度
  • 消灭小黑窗
  • 直接执行js甚至破解图片url的加密,抛弃selenium,从而实现更快速地爬取