CrawlerFor98_2.1

-----------本项目由abcabc2020个人开发,版权所有,不允许任何未经授权的盗用或者转发,转发必须标明作者和来源!违者必究!如有建议或者合作请联系邮箱或QQ 3440684287@qq.com


置顶更新日志:

2020-5-29:(必看)

增加ToExcel.exe软件,用于生成带图片预览的美观的Excel数据库便于浏览,具体可以看我的帖子和‘Excel生成‘文件夹中的使用说明

原贴:https://www.98rewer.me/forum.php?mod=viewthread&tid=345775

2020-5-19: 修复ImgDownload.exe中 out of range,多线程处理的一些bug,请务必更新,否则会卡住不动

2020-5-18:(必看)

重大更新:增加专用图片下载程序ImgDownload.exe,可以增量的和数据库对比下载没有的封面和视频截图,详情请看先我的帖子

重大更新2:更新主爬虫CrawlerForS的图片链接提取规则,现在可以提取帖子前两个图片,一般就是封面和视频截图

重大更新3:更新了数据库98cTest.csv,补全了之前缺失的链接,更新版主‘sdcs(此处使用缩写)’的6000kbs系列帖子爬取种子和图片失败规则,现在已经补全并且完全爬取了

重大更新4:补全封面和视频截图(全部补全)共2g,请去我度盘下载图包,改后缀为.zip解压替换Img文件夹 链接:https://pan.baidu.com/s/1yX0FRIjpqCQB5i-6rn-_Nw 提取码:l29q

密码:abc2020


置顶公告:

1.已经上传度盘 版本 5.19日更新版本

链接:https://pan.baidu.com/s/1tVdcr0LIRQjM7tazu1tfnQ 提取码:nu1u

2. 有人反映说换了网址以后点开闪退,不知道还有有没有人有这种情况,有的话请发我邮箱或者加我qq反映谢谢! 3440684287@qq.com

3. 98堂的网址已经更换,请大家在配置文件中更换(已经在最新更新中更新)

https://www.98rewer.me/forum.php

注意:填写网址时一定要带有**/forum.php**,程序中默认去除这一块,如果不加就会把真正的地址去掉(在论坛内点击上方论坛按钮即可看到首页网址)


[TOC]


这是一个自动收集98堂中文区信息的爬虫软件,并且我提供附加功能可以批量替换日文标题成为98堂的标题

*注:这里使用的是github的图床如果图片挂了请挂代理,之后会使用免翻墙图床

一. 软件制作初衷

98的高清字幕一直是这里的特色,为了可以有效根据更多的关键词进行搜索,或者更快的浏览,所以在这里写一个可以进行不断更新爬取的软件,代替堂里其他人偶尔的更新

并且本人为了让我在选择电影时更有效的看到这是什么电影,特别根据爬取的数据为数据库写了可以自动替换日文标题的程序

本软件的便捷之处:

a. 本软件可以自动更新数据库到最新,现在只有高清有码区的内容,之后会增加其他部分内容,如:中文无码部分,高清骑兵区部分的磁力链接

b. 方便根据演员姓名查询影片,不受限制,一次性全部下载,不用一个一个点进去下

爬虫内容展示:

123

文件更名软件结果展示:

直接结果展示:

126

外层文件夹更名(可选)

125

二. 软件功能说明&包含文件说明

1. CrawlerForS_x.x

对98堂高清中文电影区有码部分的数据进行爬取

1) CrawlerForS 软件功能:

a. 可以进行增量爬取,为了保证程序的效率,采用了日志的方法,即:./98_Data/result.txt文件记录了爬取的开始日期和结束日期,在这个基础上更新新的数据,简单快捷

b. 可以自动在爬取时下载对应的封面和截图(需要开代理,否则会出现大量失败),下载失败自动重试,如果失败自动记录在failimage.txt文件中

c. 新版增加多线程运行功能:可自定义线程数:图片下载线程,网页详细数据处理线程,每页url处理线程(有最大数量限制,超出自动变成最大数)

2)软件配置说明

Image text

a. 数据存放文件夹:存放爬虫数据以及配置数据的文件夹,如果不存在会根据配置文件里的信息自动生成,如果没有什么特殊需要请不要乱动!!

b. 线程数:

​ 图片下载线程:_下载图片的线程

​ 目录爬取线程:爬取每一页url链接的线程,不用太多

​ 爬虫线程:处理每一页数据的线程,可以稍微多一些,最多20个

c. 爬取设置:

​ 开始页面:爬虫开始爬取的页面,一般就是第一页

​ 结束页面:爬虫结束的页面,如果增量更新一般来说增量不会超过10页(除非你一个多月没更新),需要你设置的超过之前的最新数据所在的页面,程序到达上一次数据之后会停止

​ 是否下载图片:填写 ‘是’ 或者‘否’ 本项目中图片没有下载完全,如果你有代理并且流量充足可以填写:是。PS.在之后的功能中会考虑添加单独下载图片的部分

​ 是否增量下载:填写 ‘是’ 或者‘否’ 是否考虑上一次爬取的日期,建议打开,如果不打开会出现重复爬取,我增加这个选项完全是在我当初收集全项目时一段一段爬而设置的,而且在日志部分不考虑增量下载还有一些bug没有来得及处理

​ 是否是第一次使用:填写 ‘是’ 或者‘否’ 如果填写是:在写入数据的时候会先写一行列索引进去,一般填否

d. 98最新网址:进入98论坛首页的网址

3)软件现有的bug

a. 反向的增量更新没有解决,不过这个项目现有的数据已经覆盖到了最后一页的数据

b. 如果不考虑增量更新

如果在使用过程中还有别的问题欢迎和我反映,邮箱:3440684287@qq.com

4) 附加文件说明

a. initial_config.exe重新生成CrawlerForS的配置文件,不过最新版中如果配置文件缺失是会自动生成的,生成后需要再次运行一下软件

b. config.iniCrawlerForS的配置文件

2. TitleReplace_x.x

对所选文件夹下的电影进行文件名替换,替换为98的汉语标题,影片的内容了解一大半,方便选择

1)软件功能:

a. 根据爬虫收集到的数据对所选文件名称进行替换(包括子文件夹)

b. 可以选择将上一级文件夹名称也一并替换,一目了然。

c. 软件适用于使用emby,kodi等软件的用户(经测试emby完美更名并显示海报)

d. 同时可以修改nfo文件中的标题(搭配javsdt等刮削软件更佳)

e. 支持多文件夹处理

f. 支持识别-c,-C,㊥,三种中文形式,如果在数据库中找到了对应的数据(即该电影有中文字幕)那么会在文件名中写明“非中文”字样方便后续下载替换

待续.......

根目录包含文件展示:

111

三.软件下载

点击clone或者downloadzip按钮下载

数据会存储到./98_Data/Csv_data/98CTest.csv数据里面,查看时可以使用Excel打开

如果只想要数据也可以,本项目是长期有效实时更新,如果未能及时更新可以自行下载下来点击CrawlerForS_x.x.exe程序进行更新

配合更名软件可以替换影片日文名称,方便选择

四. 文件结构

|-- config.ini
|-- CrawlerForS_2.1.exe
|-- initial_config.exe
|-- README.md
|-- TitleReplace_2.1.exe
|-- TR_config.ini
|-- TR_initial_config.exe
|-- 98_Data
    |-- failimage.txt
    |-- result.txt
    |-- Csv_data
    |   |-- 98CSimpleTest.csv
    |   |-- 98CTest.csv
    |-- Img
        |-- Poster
        -----
        |-- ScreenShot
        -----

五. 常见问题解答

  1. CrawlerForS程序在爬取过程中卡住了?

    答:这是因为爬取网页的时候有延迟或者获取网页失败重新获取中,不用担心耐心等待即可,时间如果超过5分钟仍然没有什么反应(即控制台上无任何输出)重启即可,这时候数据还没有写入文件之中,只有所有任务都做完之后才会写入文件。

    建议开代理加快速度

  2. CrawlerForS程序什么结果也没有输出直接报 timeout错误?

    一般是你的首页网址填错了或者未及时更换网址,详情请看置顶公告

  3. 提示ImportError DLL load failed

    我猜测可能是因为你没下全,开代理重下一遍再试试,或者给自己电脑安装python环境,这是我现在能想到的解决办法了。因为我这里是每天更新都没问题的

六. 更新日志

2020-5-15:TitleRelpace程序更新v2.3版本,增加自定义后缀名改名字,以前只支持mp4,现在支持更多格式,默认.mp4,.wmv,.avi你可以在配置文件中自行添加。

2020-5-12:在TitleReplace程序中发现如果不考虑以前汉化的问题,之前生成非中文标识'[非中文]'会和软件内置演员识别表达式重合,最终会生成两个[非中文],现在已经修复,并且最新非中文标识是'(非中文)'。程序运行结束后保留界面不立即关闭。