- 来源:阿里天池,广东公共交通大数据竞赛
- 目的:熟悉Python,学会用Python进行数据处理(特征提取、特征选择),以及python的机器学习库scikit-learn的使用,Just Try。
- 初次上手,时间有限,最终成绩294/ 57.04%(总人数2734/82.22%)
竞赛官网 阿里天池-广东交通大数据竞赛
本次大赛要求选手根据广州市内及广佛同城公交线路的历史公交刷卡数据,挖掘固定人群在公共交通中的行为模式。建立公交线路乘车人次预测模型,并用模型预测未来一周(20150101-20150107)每日06时至21时每小时段各个线路的乘车人次。Part2将更换一批新数据。
大赛开放20140801至20141231五个月广东部分公交线路岭南通用户刷卡数据,共涉及近200万用户2条线路约800多万条数据记录。同时大赛提供20140801至20150131期间广州市的天气状况信息。
- 乘车刷卡交易数据表(gd_train_data)
- 公交线路信息表(gd_line_desc)
- 广州市天气状况信息(gd_weather_report)
- 选手需要提交结果表(gd_predict.txt)
乘车刷卡交易数据表(gd_train_data)
列名 |
类型 |
说明 |
示例 |
Use_city |
String |
使用地 |
广州 |
Line_name |
String |
线路名称 |
线路1 |
Terminal_id |
String |
刷卡终端ID |
4589bb610f9be53a43a7bc26bb40e44d |
Card_id |
String |
卡片ID |
8ce79e0b647053f191d20c5552eb49f0 |
Create_city |
String |
发卡地 |
佛山 |
Deal_time |
String |
交易时间(yyyymmddhh) |
2014091008 |
Card_type |
String |
卡类型 |
学生卡 |
公交线路信息表(gd_line_desc)
列名 |
类型 |
说明 |
示例 |
Line_name |
String |
线路名称 |
线路1 |
Stop_cnt |
String |
线路站点数量 |
24 |
Line_type |
String |
线路类型 |
广州市内/广州佛山跨区域 |
广州市天气状况信息(gd_weather_report)
列名 |
类型 |
说明 |
示例 |
Date_time |
String |
日期 |
2014/8/1 |
Weather |
String |
天气状况(白天/夜间) |
小雨 |
Temperature |
String |
气温(最高/最低) |
36℃/26℃ |
Wind_direction_force |
String |
风向风力(白天/夜间) |
无持续风向≤3级/无持续风向≤3级 |
预测数据集为这些公交线路在20150101-20150107每个线路每日06时至21时各个小时段的乘车人次总和。(注:21时指的是21:00-21:59这个时间段)
选手需要提交结果表(gd_predict.txt)
列名 |
类型 |
说明 |
示例 |
Line_name |
string |
线路名称 |
线路1 |
Deal _date |
string |
日期 |
20150101 |
Deal_hour |
string |
小时段 |
08 |
Passenger_count |
bigint |
乘车人次 |
1234 |