/DataMiningTask

the homework of DataMining_BIT

Primary LanguageJupyter Notebook

数据挖掘

项目描述

本项目是BIT数据挖掘课程的互评作业,选取老师提供的数据集,利用课上所学知识及课下练习,对所选数据集进行挖掘。

子模块描述

  • OaklandCrime.ipynb -- 互评作业1中分析数据集Oakland Crime Statistics
  • WineReviewAnalysis.ipynb -- 互评作业1中分析数据集Wine Reviews

homework2

  • WineApriori.ipynb -- 互评作业2中对数据集Wine Reviews进行关联规则挖掘

homework3

  • HotelPrediction.ipynb -- 互评作业3中对数据集Hotel Booking Demand进行分析与预测

互评作业

互评作业1——完成内容

  • 进行数据摘要,对标称数据给出频数,对数值数据进行五数概括
  • 利用直方图、pp图、折线图和盒图等完成数据可视化,同时探讨数据的离群点、数据分布、对数据之间的相关关系
  • 分析已缺失数据的原因,并寻找合理的缺失数据处理方法
  • 利用4种策略对缺失值进行处理

互评作业2——完成内容

  • 对数据集进行处理,转换成适合进行关联规则挖掘的形式
  • 找出频繁模式
  • 导出关联规则,计算其支持度和置信度
  • 采用Lift和全置信度这2种指标,对规则进行评价
  • 对挖掘结果进行分析与可视化展示

互评作业3——完成内容

  • 基本情况:城市酒店和假日酒店预订需求和入住率比较
  • 用户行为:提前预订时间、入住时长、预订间隔、餐食预订情况
  • 一年中预订酒店的最佳时间
  • 利用Logistic模型预测酒店预订

数据集

所选数据集: