####运用历史的降价信息来预测商店的销售额
对零售数据建模的一个挑战是对有限的历史数据做决策的需要。如果一年一次的圣诞节临近,那么有机会看看战略决策对底线的影响。
在这个招募比赛中,求职者可以查阅位于不同地区的45个walmart商场的历史销售数据,每个商场包含许多部门。参与者必须估计每个商场的每个部门的销售额。为了增加挑战,假期降价活动包含在数据集中,众所周知这些降价活动会影响销售额,问题就在于预测哪一个部门受到影响及受影响的程度。
####评估标准
比赛的评估标准是加权平均绝对值误差(WMAE):
- n代表行数
-
$\hat{y}_i$ 代表预测的销售额 -
$y_i$ 代表实际的销售额 -
$w_i$ 代表权重,w=5表示当前礼拜处于假期礼拜,否则w=1. ####提交格式 测试集的每一行(商店+部门+日期三元组),主要工作是预测部门没一周的销售额。Id列是由商店,部门,日期通过下划线串联起来的(e.g. Store_Dept_2012-11-02)。文件有一个文件头,并且文件格式如下:
Id,Weekly_Sales
1_1_2012-11-02,0
1_1_2012-11-09,0
1_1_2012-11-16,0
####数据
#####train.csv 从2010-02-05到2012-11-01的历史数据,文件中主要包括以下信息:
- Store-商场id
- Dept-部门id
- Date-周日期
- weekly_sales-指定商店指定部门的销售额
- isholiday-当前星期是否是特殊节日星期
#####test.csv 与test.csv格式一致,区别在于测试集的每一行缺少销售额信息,需要用户预测
#####feature.csv 这个文件包含一些相关信息,如商场,部门,给定日期的地区活动。包含如下领域: *Store-商场id *Date-周日期 *Temperature-地区的平均温度 *Fuel_price-地区的燃油价格 *Markdown1-5-相关的walmart正在举行的促销活动的匿名信息。降价数据只包括2011年11月之后的数据,并且不是对所有商店在所有时间都可用。所有缺失的值用NA代替。 *Cpi-消费者物价指数 *Unemployment-失业率 *IsHoliday-当前星期是否是特殊节日 为了方便,在数据集中四个主要假日的分布时间为(数据中不包括所有的假日): Super Bowl: 12-Feb-10, 11-Feb-11, 10-Feb-12, 8-Feb-13 Labor Day: 10-Sep-10, 9-Sep-11, 7-Sep-12, 6-Sep-13 Thanksgiving: 26-Nov-10, 25-Nov-11, 23-Nov-12, 29-Nov-13 Christmas: 31-Dec-10, 30-Dec-11, 28-Dec-12, 27-Dec-13
#####分析 *预测2012-11-02到2013-07-26号每个商场每个部门的销售额 *测试集包含从2010-02-05到2012-10-26号的每个商场每个部门的销售额 *从2010-02-05到2011-11-04的数据不包含markdown信息,从2011-11-11到2013-07-26的数据包含markdown信息,从2013-05-03到2013-07-26号的数据缺少消费者物价指数和失业率信息。