知乎社交网络分析
简介
项目包含基于zhihu-python的多线程爬虫,数据I/O(SQLite
,csv
),以及基于用户关注网络的分析(使用networkx作为图算法库)。
注:本项目所使用的zhihu-python已与原版存在差异
详细内容
- Dataset
- 中文
- English
文件说明
crawler
文件夹:爬虫部分,以广度优先策略爬取知乎数据,并以csv格式储存(这一部分代码目前版本有误,爬到的数据文件与zhihu_database.py
无法衔接,此外存在topic爬漏的问题,待修复)zhihu_schema.sql
:SQLite数据库的schemazhihu_database.py
:将csv中的数据导入至数据库中zhihu_analysis.py
:从数据库中提取数据并进行分析
爬虫部分已知问题及(可能)原因
爬虫部分因年久失修,目前存在很多问题,虽然在接下来一段时间会进行缓慢修复,但还请谨慎入坑:)
- InsecureRequestWarning | urlib
- topic.py 会爬漏话题标签 | 原因未知