本项目是BIT数据挖掘课程的互评作业,选取老师提供的数据集,利用课上所学知识及课下练习,对所选数据集进行挖掘。
- OaklandCrime.ipynb -- 互评作业1中分析数据集Oakland Crime Statistics
- WineReviewAnalysis.ipynb -- 互评作业1中分析数据集Wine Reviews
- WineApriori.ipynb -- 互评作业2中对数据集Wine Reviews进行关联规则挖掘
- HotelPrediction.ipynb -- 互评作业3中对数据集Hotel Booking Demand进行分析与预测
- 进行数据摘要,对标称数据给出频数,对数值数据进行五数概括
- 利用直方图、pp图、折线图和盒图等完成数据可视化,同时探讨数据的离群点、数据分布、对数据之间的相关关系
- 分析已缺失数据的原因,并寻找合理的缺失数据处理方法
- 利用4种策略对缺失值进行处理
- 对数据集进行处理,转换成适合进行关联规则挖掘的形式
- 找出频繁模式
- 导出关联规则,计算其支持度和置信度
- 采用Lift和全置信度这2种指标,对规则进行评价
- 对挖掘结果进行分析与可视化展示
- 基本情况:城市酒店和假日酒店预订需求和入住率比较
- 用户行为:提前预订时间、入住时长、预订间隔、餐食预订情况
- 一年中预订酒店的最佳时间
- 利用Logistic模型预测酒店预订
所选数据集:
- Kaggle的Wine Reviews
- Kaggle的Oakland Crime Statistics
- Kaggle的Hotel Booking Demand