bilibili弹幕分析,包含爬虫、词云分析、词频分析、情感分析、构建衍生指标,可视化
主要依赖库
selenium
pandas
lxml
json
requests
pyecharts
jieba
snownlp
wordcloud
信息爬取
1.1 爬取bilibili某一个分区(可通过url定义)特定日期下按照视频热度降序排序的视频信息,包含:href、视频时长、名称、BV号、播放量、弹幕数、up主、up主id
1.2 通过BV号获取视频评论Cid,解析xml网页,简单获取各个视频的弹幕内容(注意:条数有限制,xml的弹幕条数不超过1000条)
1.3 通过up主id,获取up主在爬取时的粉丝数,此粉丝数可以精确到个位数
1.4 通过BV好获取视频评论Cid,获取详细的弹幕内容,包括:弹幕出现时间、弹幕模式、字号、弹幕颜色、弹幕池、发送者加密id、弹幕id
数据分析--词云
2.1 全区弹幕词云分析,可以通过自己编写剔除单字、去除停用词、调整分词模型进行优化
2.2 分频道弹幕词云分析
数据分析--弹幕条数
3.1 分析全区弹幕前十视频,使用pyecharts柱状图进行可视化
3.2 分析各频道平均/最高视频弹幕数
数据分析--指标构建
构建指标:互动指数:弹幕数 / 播放量 * 100
粉丝响应指数:up主粉丝数 / 播放量
4.1 全区互动指数最高前十视频
4.2 各频道最高/平均互动指数
4.3 全区粉丝响应指数最高前十视频
4.4 各频道最高/平均粉丝响应指数
数据分析--情感分析
5.1 分析全区所爬取的所有视频的所有弹幕的情感分布情况,获取总体情感指数印象
5.2 分析各个视频的情感分析,对每一条弹幕进行情感分析,输出弹幕的情感分析指数Excel表
5.3 分析各个频道的情感分析指数分布图