对知乎精华回答的爬虫收集与分析。
##算法简述
- 收集范围:知乎各话题下的精华回答。
- 爬虫算法:
- 以根话题的话题树为启始,按广度优先遍历各子话题,深度为3。
- 各话题下的精华回答,按页遍历,例如从 https://www.zhihu.com/topic/19776749/top-answers?page=1 遍历到 https://www.zhihu.com/topic/19776749/top-answers?page=50 解析各精华回答
- 解析精华回答的各项属性,包括:
- 精华回答的点赞数,答案长度;
- 答题用户的id,获得的点赞数,地区,性别,学历,学校,专业等信息