- 授课人:王成军
- 联系方式:wangchengjun@nju.edu.cn
- 计算传播网:http://computational-communication.com
- 36学时,两学分
大数据挖掘与分析 050302D01 费彝民楼403 周二5-6节课
- 一、计算新闻传播学简介 [课程要求、 常见问题 、Jupyter Notebook使用、 Slides制作方法]
- 二、大数据简介
- 三、数据科学的编程工具:Python使用简介(3h) [Graphlab、rpy2]
- 四、数据抓取:抓取政府工作报告 [Beautifulsoup]
- 五、数据抓取:抓取天涯论坛帖子
- 六、数据清洗:清洗推特数据
- 七、数据清洗:清洗占中新闻、清洗天涯论坛帖子
- 八、统计初步: 分析天涯论坛的帖子
- 九、机器学习: 分析天涯论坛的帖子
- 十、文本挖掘简介
- 十一、文本挖掘:基于机器学习的情感分析
- 十二、文本挖掘:主题模型 [graphlab]
- 十三、计算传播应用:推荐系统简介
- 十四、计算传播应用:推荐系统实践 [音乐推荐、 电影推荐、隐含语义模型]
- 十五、网络科学理论简介
- 十六、网络科学模型
- 十七、网络科学:使用NetworkX分析网络结构
- 十八、课程总结 回帖网络分析
https://github.com/computational-class/bigdata/wiki/
http://nbviewer.jupyter.org/github/computational-class/bigdata/blob/gh-pages/code/ 或者 http://github.com/computational-class/bigdata/tree/gh-pages/code/
推荐http://nbviewer.jupyter.org/ 更流畅浏览
http://nbviewer.jupyter.org/github/computational-class/bigdata/tree/gh-pages/slides/ 或者 http://github.com/computational-class/bigdata/tree/gh-pages/slides/
推荐http://nbviewer.jupyter.org/ 更流畅浏览