用于2019年秋季哈尔滨工业大学数据挖掘课程
这一部分主要内容来自Mining of Massive Datasets,相关内容可以参考其PPT和讲义,非常详细。
- GBDT参考文献,Greedy Function Approximation: A Gradient Boosting Machine,当我们在谈论GBDT:从 AdaBoost 到 Gradient Boosting
- XGBoost参考文献,XGBoost: A Scalable Tree Boosting System,知乎问题,xgboost原理?
- LightGBM参考文献,LightGBM: A Highly Efficient Gradient Boosting Decision Tree
这次考试总的来说还是有点意外的,没有想到真的考算法模拟,还考了3个。
根据题目顺序说一下:
- 画ROC曲线
- 解释交叉验证,Kfold和Statified Kflod的区别(后者为分层采样,脑抽写错了)
- 学习器为树模型的时候,如何选择划分的特征
- 举例说明,基于内容的推荐算法中,项模型和用户模型的区别
- 推荐系统的冷启动问题,如何解决
- 二分图匹配问题,模拟
- 中介度算法模拟
- 重采样算法中,解释ENN和CNN
- GBDT、xgboost和LightGBM的区别。
总的来说,这门课比较有用,建议修改为4.5分课程,推至大三春季学期学习,增加实验(比如后面的xgboost实践)。