This hub is created for a community detection project of summer school in NUS. Now it is used for data mining.
There are two main categories:community detection and decision tree.
------origin readme------
Part of ipynb code is provided by professor Kal.
Thanks for professor Leong, professor Kal and other three team members. Following is what we have done every day:
- 7-23:计划和讨论项目roadmap,头脑风暴,选择研究对象。
- 7-24:图片格式转换,python、matlab裁剪图片、处理图片属性,手动获取训练集,完成single-linked cluster算法,graph生成。完成不同歌手的唱片封面相似度CD。
- 7-25:选用电影人物截图作为dataset,完整地用自己的数据集跑了多次代码,对结果和失败的成因做了分析,安排今晚分工:gephi、图像预处理、层次聚类可视化、做poster准备展示。
- 7-26:完成poster和ppt,数据集预处理,Gephi数据导出导入、图像生成,尝试层次聚类的库和画图,手写完成single-linked cluster、complete-linked cluster、average-linked cluster,对cd结果进行分析。安排:继续尝试层次聚类过程可视化,分析single-linkek cd之后的结果,考虑进下一个项目。
- 7-27 阅读孪生神经网络代码,使用MCL进行CD,尝试调神经网络参数,debug CD代码。明天早上进一步工作的安排,提高效率。
- 7-28 重新训练模型,得到了目前最好的训练结果,使用不同CD算法进行Clustering,调参得到更好的结果,目前MCL算法效果最好。明天休息、自由活动,这两天分别进行community分析,周一汇总。
- 7-30 导出最后的结果,作图、写迭代过程、分析算法、制作海报。
- 7-31 为最后的展示做准备,提交海报和其他展示文件,准备展示网页。