/gd_traffic_tc_python

阿里天池,广东公共交通大数据竞赛,简单实践,主要涉及特征提取,特征选择,scikit-learn使用

Primary LanguageJupyter Notebook

gd_traffic_tc_python

  • 来源:阿里天池,广东公共交通大数据竞赛
  • 目的:熟悉Python,学会用Python进行数据处理(特征提取、特征选择),以及python的机器学习库scikit-learn的使用,Just Try。
  • 初次上手,时间有限,最终成绩294/ 57.04%(总人数2734/82.22%)

竞赛官网 阿里天池-广东交通大数据竞赛

竞赛题目

本次大赛要求选手根据广州市内及广佛同城公交线路的历史公交刷卡数据,挖掘固定人群在公共交通中的行为模式。建立公交线路乘车人次预测模型,并用模型预测未来一周(20150101-20150107)每日06时至21时每小时段各个线路的乘车人次。Part2将更换一批新数据。

大赛开放20140801至20141231五个月广东部分公交线路岭南通用户刷卡数据,共涉及近200万用户2条线路约800多万条数据记录。同时大赛提供20140801至20150131期间广州市的天气状况信息。

数据说明

  • 乘车刷卡交易数据表(gd_train_data)
  • 公交线路信息表(gd_line_desc)
  • 广州市天气状况信息(gd_weather_report)
  • 选手需要提交结果表(gd_predict.txt)

乘车刷卡交易数据表(gd_train_data)

列名

类型

说明

示例

Use_city

String

使用地

广州

Line_name

String

线路名称

线路1

Terminal_id

String

刷卡终端ID

4589bb610f9be53a43a7bc26bb40e44d

Card_id

String

卡片ID

8ce79e0b647053f191d20c5552eb49f0

Create_city

String

发卡地

佛山

Deal_time

String

交易时间(yyyymmddhh)

2014091008

Card_type

String

卡类型

学生卡

 

公交线路信息表(gd_line_desc)

列名

类型

说明

示例

Line_name

String

线路名称

线路1

Stop_cnt

String

线路站点数量

24

Line_type

String

线路类型

广州市内/广州佛山跨区域

 

广州市天气状况信息(gd_weather_report)

列名

类型

说明

示例

Date_time

String

日期

2014/8/1

Weather

String

天气状况(白天/夜间)

小雨

Temperature

String

气温(最高/最低)

36℃/26℃

Wind_direction_force

String

风向风力(白天/夜间)

无持续风向≤3级/无持续风向≤3级

 

预测数据集为这些公交线路在20150101-20150107每个线路每日06时至21时各个小时段的乘车人次总和。(注:21时指的是21:00-21:59这个时间段)

选手需要提交结果表(gd_predict.txt)

列名

类型

说明

示例

Line_name

string

线路名称

线路1

Deal _date

string

日期

20150101

Deal_hour

string

小时段

08

Passenger_count

bigint

乘车人次

1234