CrawlerFor98

重要免责声明：

允许任何形式的转载，标明出处即可，但是原则上禁止在**大陆内的任何平台转载！对此产生的后果自负
本项目由abc2020个人开发，旨在学习 Python 语言，提高编程水平。本项目的所有代码，程序，工具仅用于技术、学术交流，严禁用于商业和其他盈利目的，产生的一切后果由用户自行承担！
请自觉遵守当地法律法规，产生的一切后果由用户自行承担。
本项目仅仅是工具，不提供任何淫秽，色情的资源下载，用此工具产生的一切后果自行承担！
作者保留最终决定权和最终解释权。
不接受任何赞助
下载之后请在24小时之内删除安装包以及软件

若您不同意上述任一条款，请勿直接或间接使用本项目和软件。

置顶更新日志：

2020-5-31：添加已经生成并设置好的Excel预览文件，只要你的图片库是到5-30最新的就可以打开图片预览选项，请不要移动5-31Excel.xlsx文件

2020-5-29：（必看）

增加ToExcel.exe软件，用于生成带图片预览的美观的Excel数据库便于浏览，具体可以看我的帖子和‘Excel生成‘文件夹中的使用说明

原贴：https://www.98rewer.me/forum.php?mod=viewthread&tid=345775

重大更新4：补全封面和视频截图（全部补全）共2g (截止到5.20)，改后缀为.zip解压替换Img文件夹，版权归片商所有 链接：https://pan.baidu.com/s/1yX0FRIjpqCQB5i-6rn-_Nw 提取码：l29q

密码：abc2020

置顶公告：

1.已经上传度盘版本 6.15日更新版本

链接：https://pan.baidu.com/s/1sVlLosA9YxWhniBDNOuGgQ 提取码：kqz1

2.如果有任何问题，请发邮箱abc2020gg@gmail.com，qq已经弃用

3. 98堂的网址已经更换，请大家在配置文件中更换（已经在最新更新中更新）

https://www.98rewer.me/forum.php

注意：填写网址时一定要带有**/forum.php**，程序中默认去除这一块，如果不加就会把真正的地址去掉（在论坛内点击上方论坛按钮即可看到首页网址）

4. 运行程序时，注意如果CrawlerForS程序没有出现“主程序退出”，之前爬的数据是不会存在98_Data.csv文件里的，也就是说，只要你看见了主程序退出字样，说明爬取成功，数据已经存储，相反如果中途你关闭软件，那么这次爬取的所有数据都不会被存储

如果嫌慢可以把下载图片设置成“否”。图片可以用ImgDownload单独更新

[TOC]

这是一个自动收集98堂中文区信息的爬虫软件，并且我提供附加功能可以批量替换日文标题成为98堂的标题

*注：这里使用的是github的图床如果图片挂了请挂代理，之后会使用免翻墙图床

一. 软件制作初衷

98的高清字幕一直是这里的特色，为了可以有效根据更多的关键词进行搜索，或者更快的浏览，所以在这里写一个可以进行不断更新爬取的软件，代替堂里其他人偶尔的更新

并且本人为了让我在选择电影时更有效的看到这是什么电影，特别根据爬取的数据为数据库写了可以自动替换日文标题的程序

本软件的便捷之处：

a. 本软件可以自动更新数据库到最新，现在只有高清有码区的内容，之后会增加其他部分内容，如：中文无码部分，高清骑兵区部分的磁力链接

b. 方便根据演员姓名查询影片，不受限制，一次性全部下载，不用一个一个点进去下

爬虫内容展示：

文件更名软件结果展示：

直接结果展示：

外层文件夹更名（可选）

二. 软件功能说明&包含文件说明

1. CrawlerForS_x.x

对98堂高清中文电影区有码部分的数据进行爬取

1) CrawlerForS 软件功能：

a. 可以进行增量爬取，为了保证程序的效率，采用了日志的方法，即：./98_Data/result.txt文件记录了爬取的开始日期和结束日期,在这个基础上更新新的数据，简单快捷

b. 可以自动在爬取时下载对应的封面和截图（需要开代理，否则会出现大量失败），下载失败自动重试，如果失败自动记录在failimage.txt文件中

c. 新版增加多线程运行功能：可自定义线程数：图片下载线程，网页详细数据处理线程，每页url处理线程（有最大数量限制，超出自动变成最大数）

2）软件配置说明

a. 数据存放文件夹：存放爬虫数据以及配置数据的文件夹，如果不存在会根据配置文件里的信息自动生成，如果没有什么特殊需要请不要乱动！！

b. 线程数：

图片下载线程：_下载图片的线程

目录爬取线程：爬取每一页url链接的线程，不用太多

爬虫线程：处理每一页数据的线程，可以稍微多一些，最多20个

c. 爬取设置：

开始页面：爬虫开始爬取的页面，一般就是第一页

结束页面：爬虫结束的页面，如果增量更新一般来说增量不会超过10页（除非你一个多月没更新），需要你设置的超过之前的最新数据所在的页面，程序到达上一次数据之后会停止 请注意：如果你长时间没更新请吧结束页面设置的大一些，但是也不要超过中文区最大页面数，否则中间漏掉的话是没办法补救的，只能重新爬了

是否下载图片：填写 ‘是’ 或者‘否’ 本项目中图片没有下载完全，如果你有代理并且流量充足可以填写：是。PS.在之后的功能中会考虑添加单独下载图片的部分

是否增量下载：填写 ‘是’ 或者‘否’ 是否考虑上一次爬取的日期，建议打开，如果不打开会出现重复爬取，我增加这个选项完全是在我当初收集全项目时一段一段爬而设置的，而且在日志部分不考虑增量下载还有一些bug没有来得及处理

是否是第一次使用：填写 ‘是’ 或者‘否’ 如果填写是：在写入数据的时候会先写一行列索引进去，一般填否

d. 98最新网址：进入98论坛首页的网址

3）软件现有的bug

a. 反向的增量更新没有解决，不过这个项目现有的数据已经覆盖到了最后一页的数据

b. 如果不考虑增量更新

如果在使用过程中还有别的问题欢迎和我反映，邮箱：abc2020gg@gmail.com

4) 附加文件说明

a. initial_config.exe重新生成CrawlerForS的配置文件，不过最新版中如果配置文件缺失是会自动生成的，生成后需要再次运行一下软件

b. config.ini是CrawlerForS的配置文件

2. TitleReplace_x.x

对所选文件夹下的电影进行文件名替换，替换为98的汉语标题，影片的内容了解一大半，方便选择

1）软件功能：

a. 根据爬虫收集到的数据对你下载整理好的电影的文件名称进行替换（包括子文件夹）

b. 可以选择将上一级文件夹名称也一并替换，一目了然。

c. 软件适用于使用emby，kodi等软件的用户（经测试emby完美更名并显示海报）

d. 同时可以修改nfo文件中的标题（搭配javsdt等刮削软件更佳）

e. 支持多文件夹处理

f. 支持识别-c，-C，㊥，三种中文形式，如果在数据库中找到了对应的数据（即该电影有中文字幕）那么会在文件名中写明“非中文”字样方便后续下载替换

待续.......

根目录包含文件展示：

3. ImgDownload_x.x

1）软件功能

将封面图片和截图图片补全

图片下载的链接是根据之前爬好的数据来下载的，下载途中不会重复下载已有的图片，可以随时关闭（因为是增量更新下一次打开只会下载没有的图片）

**优点：**如果单单用CrawlerFor98程序爬数据加上下载封面，极有可能因为封面下载时间过长或者失败而失败，有了这个程序，就可以把爬虫程序的图片下载开关设成“否”关掉，快速爬完数据后专门用这个程序来下载图片

2）配置文件：

ImgDownload配置.ini，有三种模式可以选择，一般选择：基于数据库对比下载，其他的都是鸡肋.....，然后填入图片文件夹和数据库（98CTest.csv文件）路径就行

3）使用方法：

点击ImgDownload程序开始运行

原贴链接：https://www.98rewer.me/forum.php?mod=viewthread&tid=340337

4. ToExcel

1）软件功能：

生成一个精美的Excel文件方便浏览

Excel表格中含有预览列，可以点击查看封面图片和视频截图

2）使用方法：

具体请查看帖子：https://www.98rewer.me/forum.php?mod=viewthread&tid=345775

使用方法请见ToExcel文件夹中的使用说明

三.软件下载

点击clone或者downloadzip按钮下载

数据会存储到./98_Data/Csv_data/98CTest.csv数据里面，查看时可以使用Excel打开

如果只想要数据也可以，本项目是长期有效实时更新，如果未能及时更新可以自行下载下来点击CrawlerForS_x.x.exe程序进行更新

配合更名软件可以替换影片日文名称，方便选择

现在提供百度网盘下载

四. 文件结构

│  5-31Excel.xlsx
│  config.ini
│  CrawlerForS_2.3.exe
│  ImgDownload_1.5.exe
│  ImgDownload配置.ini
│  initial_config.exe
│  README.md
│  TitleReplace_2.3.exe
│  度盘链接.txt
│  点击设置TitleR配置.ini
│  生成TR配置文件.exe
│  软件声明_必读.txt
│  
├─98_Data
│  │  Img文件夹图片不全，点击获取.txt
│  │  result.txt
│  │  
│  ├─Csv_data
│  │      98CSimpleTest.csv
│  │      98CTest.csv
│  │      
│  └─Img
│      ├─Poster
│      └─ScreenShot
└─Excel生成
        ToExcel.exe
        ToExcel使用说明.zip
        使用说明.docx
        模板.xlsx
        点击设置ToExcel配置.ini

五. 常见问题解答

CrawlerForS程序在爬取过程中卡住了？

答：这是因为爬取网页的时候有延迟或者获取网页失败重新获取中，不用担心耐心等待即可，时间如果超过5分钟仍然没有什么反应（即控制台上无任何输出）重启即可，这时候数据还没有写入文件之中，只有所有任务都做完之后才会写入文件。

建议开代理加快速度
CrawlerForS程序什么结果也没有输出直接报 timeout错误？

一般是你的首页网址填错了或者未及时更换网址，详情请看置顶公告
提示ImportError DLL load failed

我猜测可能是因为你没下全，开代理重下一遍再试试，或者给自己电脑安装python环境，这是我现在能想到的解决办法了。因为我这里是每天更新都没问题的

六. 更新日志

2020-5-12：在TitleReplace程序中发现如果不考虑以前汉化的问题，之前生成非中文标识'[非中文]'会和软件内置演员识别表达式重合，最终会生成两个[非中文]，现在已经修复，并且最新非中文标识是'(非中文)'。程序运行结束后保留界面不立即关闭。

2020-5-15：TitleRelpace程序更新v2.3版本，增加自定义后缀名改名字，以前只支持mp4，现在支持更多格式，默认.mp4，.wmv，.avi你可以在配置文件中自行添加。

2020-5-18：（必看）

重大更新：增加专用图片下载程序ImgDownload.exe，可以增量的和数据库对比下载没有的封面和视频截图，详情请看先我的帖子

自动下载堂内中文有码区封面以及截图[自制程序分享(中)]

重大更新2：更新主爬虫CrawlerForS的图片链接提取规则，现在可以提取帖子前两个图片，一般就是封面和视频截图

重大更新3：更新了数据库98cTest.csv，补全了之前缺失的链接，更新版主‘sdcs(此处使用缩写)’的6000kbs系列帖子爬取种子和图片失败规则，现在已经补全并且完全爬取了

2020-5-19: 修复ImgDownload.exe中 out of range，多线程处理的一些bug，请务必更新，否则会卡住不动

SaiyoujiYuyuko/CrawlerFor98_2.1

CrawlerFor98

一. 软件制作初衷

二. 软件功能说明&包含文件说明

1. CrawlerForS_x.x

1) CrawlerForS 软件功能：

2）软件配置说明

3）软件现有的bug

4) 附加文件说明

2. TitleReplace_x.x

1）软件功能：

3. ImgDownload_x.x

1）软件功能

2）配置文件：

3）使用方法：

4. ToExcel

1）软件功能：

2）使用方法：

三.软件下载

四. 文件结构

五. 常见问题解答

六. 更新日志