项目包含基于zhihu-python的多线程爬虫,数据I/O(SQLite
,csv
),以及基于用户关注网络的分析(使用networkx作为图算法库)。
注:目前zhihu-python
最新版本已与本项目不兼容,但在这里你可以找到其在本项目中所使用的源代码版本。
crawler
文件夹:爬虫部分,以广度优先策略爬取知乎数据,并以csv格式储存zhihu_schema.sql
:SQLite数据库的schemazhihu_database.py
:将csv中的数据导入至数据库中zhihu_analysis.py
:从数据库中提取数据并进行分析
- Dataset
- 中文
- English