该项目是数据挖掘课程大作业(2019年秋),数据来源于Kesci携程机票航班延误预测算法大赛。
随着国内民航的不断发展,航空出行已经成为人们比较普遍的出行方式,但是航班延误却成为旅客们比较头疼的问题。台风,雾霾或飞机故障等因素都有可能导致大面积航班延误的情况。飞机延误给旅客出行带来很多不便,所以我们要让利用大数据在航空领域发挥作用,在计划起飞前2小时预测航班是否会延误3小时以上,并给出延误3小时以上的概率,让出行旅客更好地规划出行方式。
另外,保险公司或者航空公司可以根据飞机延误3小时以上的概率,推出航空延误险,并且设置合理的赔偿额度(航班延误险,是指投保人根据航班延误保险合同规定,向保险人(保险公司)支付保险费,当合同约定的航班延误情况发生时,保险人依约给付保险金的商业保险行为)。
准确在飞机起飞前预测航班是否会延误可以让出行旅客更好地规划出行方式,以及给航空公司或者保险公司提供重要依据以提出航空延误险。为了在飞机起飞之前预测航班是否延误三小时以上,我们不仅考虑了航班的基本信息,还以机场的特情,天气等重要信息作为预测的依据。经过特征工程,我们挖掘出了飞机编号,航空公司,起飞时间段,机场,航班编号,计划飞行时间,天气,最高气温,最低气温,特情内容数量,特情紧急程度,月份等重要的特征。利用这些特征,我们以五个非线性模型作为备择模型,在训练集上进行模型训练,在测试集上进行验证,得到单模型的最高auc score为0.6879。我们对这些模型进行模型融合,得到融合后的模型最高的auc score为0.6902。