/PrizePredict

the prize prediction from data castle

PrizePredict

the prize prediction from data castle 创建这个项目来记录我数据挖掘课程上的助学金预测项目

问题描述

  • 基于学生每天产生的一卡通实时数据,利用大数据挖掘与分析技术、数学建模理论帮助管理者掌握学生在校期间的真实消费情况、学生经济水平、发现“隐性贫困”与疑似“虚假认定”学生,从而实现精准资助。
  • 采用某高校2014、2015两学年的助学金获取情况作为标签,2013-2014、2014-2015两学年的学生在校行为数据作为原始数据,包括消费数据、图书借阅数据、寝室门禁数据、图书馆门禁数据、学生成绩排名数据,并以助学金获取金额作为结果数据进行模型优化和评价。
  • 需利用学生在2013/09-2014/09的数据,预测学生在2014年的助学金获得情况;利用学生在2014/09-2015/09的数据,预测学生在2015年的助学金获得情况。虽然所有数据在时间上混合在了一起,即训练集和测试集中的数据都有2013/09-2015/09的数据,但是学生的行为数据和助学金数据是对应的。
  • 此竞赛赛程分为两个阶段,以测试集切换为标志,2017年2月13日切换。

数据集描述

1)数据总体概述

数据分为两组,分别是训练集和测试集,每一组都包含大约1万名学生的信息纪录
  • 图书借阅数据borrow_train.txt和borrow_test.txt、
  • 一卡通数据card_train.txt和card_test.txt、
  • 寝室门禁数据dorm_train.txt和dorm_test.txt、
  • 图书馆门禁数据library_train.txt和library_test.txt、
  • 学生成绩数据score_train.txt和score_test.txt
  • 助学金获奖数据subsidy_train.txt和subsidy_test.txt 训练集和测试集中的学生id无交集,详细信息如下。 注:数据中所有的记录均为“原始数据记录”直接经过脱敏而来,可能会存在一些重复的或者是异常的记录,请参赛者自行处理。

2)数据详细描述

(1)图书借阅数据borrow*.txt(*代表_train和_test)

  注:有些图书的编号缺失。字段描述和示例如下(第三条记录缺失图书编号):

学生id,借阅日期,图书名称,图书编号
   9708,2014/2/25,"我的英语日记/ (韩)南银英著 (韩)卢炫廷插图","H315 502"
   6956,2013/10/27,"解读联想思维: 联想教父柳传志","K825.38=76 547"
   9076,2014/3/28,"公司法 gong si fa = = Corporation law / 范健, 王建文著 eng"

(2)一卡通数据card*.txt

字段描述和示例如下:

    学生id,消费类别,消费地点,消费方式,消费时间,消费金额,剩余金额
    1006,"POS消费","地点551","淋浴","2013/09/01 00:00:32","0.5","124.9"
    1406,"POS消费","地点78","其他","2013/09/01 00:00:40","0.6","373.82"
    13554,"POS消费","地点6","淋浴","2013/09/01 00:00:57","0.5","522.37"

(3)寝室门禁数据dorm*.txt

字段描述和示例如下:

    学生id,具体时间,进出方向(0进寝室,1出寝室)	
    13126,"2014/01/21 03:31:11","1"
    9228,"2014/01/21 10:28:23","0"

(4)图书馆门禁数据library*.txt

图书馆的开放时间为早上7点到晚上22点,门禁编号数据在2014/02/23之前只有“编号”信息,之后引入了“进门、出门”信息,还有些异常信息为null,请参赛者自行处理。 字段描述和示例如下:

    学生id,门禁编号,具体时间
    3684,"5","2013/09/01 08:42:50"
    7434,"5","2013/09/01 08:50:08"
    8000,"进门2","2014/03/31 18:20:31"
    5332,"小门","2014/04/03 20:11:06"
    7397,"出门4","2014/09/04 16:50:51"

(5)学生成绩数据score*.txt。

注:成绩排名的计算方式是将所有成绩按学分加权求和,然后除以学分总和,再按照学生所在学院排序。

    学生id,学院编号,成绩排名
    0,9,1
    1,9,2
    8,6,1565
    9,6,1570

(6)助学金数据(训练集中有金额,测试集中无金额)subsidy*.txt

字段描述和示例如下:

    学生id,助学金金额(分隔符为半角逗号)
    10,0
    22,1000
    28,1000
    64,1500
    650,2000

目标

多分类问题,通过上面数据集的数据,预测出该学生获得的奖学金(0,1000,1500,2000)

参考项目地址

  1. 第一名
  2. 第七名
  3. 第14名
  4. 另外附上两个未知排名的代码

解决方案流程