kayky233/novel_comment_spider

爬取wuxiaworld网站仙侠小说板块的读者书评，并制作成数据集，保存在csv格式的文件中

Python

novel_comment_spider

一、需求简介：

爬取wuxiaworld网站仙侠小说板块的读者书评，并制作成数据集，保存在csv格式的文件中

二、运行流程

spider_wuxia.py为爬虫代码，保存到wuxia.csv
time_process.py为后续对时间格式的处理，首先将wuxia.csv时间列的Edite替换为空，然后将a year/a month/a day ago替换为1 year/1 month/1 day ago,最后运行time_process.py 即可将时间格式转换为期望格式。

三、需求具体说明

1、爬取wuxiaworld网站仙侠小说板块的读者书评，并制作成数据集，保存在csv格式的文件中

2、需要爬取的书籍在如下网址可查看到，有12本。

https://www.wuxiaworld.com/novels/?genre=Xianxia

3、以一本书籍为例，书评数据集的数据格式如下：

Title书名：评价的书籍名称。

Author作者：书籍的作者。

Translator译者：书籍的译者。

Reviewer评论者：评论的读者ID或昵称。

Time评论时间：评论的时间戳或日期。

Score评分：读者对该书籍的评分。此处需简单计算一下分数，见注。

Content评论内容：读者对该书籍的评价和评论。

Website评论来源网站：网站名称

书评均来自wuxiaworld网站。

注：

1、由于评论是带有回复的，在爬取时把回复当作单独一条评论即可，无需合并。

2、由于评论时间显示为××前，可能需要根据当前时间转换成具体的年月（日）。

3、由于单个书评未附有评分，所以每本书籍下的评论评分统一处理为书籍的评分。

4、评分计算方法：5分制，根据推荐率计算。如推荐率为83%，则评分为83/20≈4.1（保留一位小数即可）。