Time
###查看一下流量最大的几个网页
data_path = '{0}/train_1.csv'.format(get_data_absolute_path())
raw_data = pd.read_csv(data_path).fillna(0.0)
raw_data['col_sum'] =raw_data.apply(lambda x: x[1:].sum(), axis=1)
max_data = raw_data[raw_data['col_sum'] == raw_data['col_sum'].max()]
colu_sum = raw_data['col_sum'].sort_values()
得到的结果是如下:
在10次方数量级的:38573
在9次方数量级的:9774,74114,139119,39180116196,99322,10403
###在访问量最大的网页上,我们找到几个流量异常的天数如下 index 0 386 2016-07-21 5.11926e+07 387 2016-07-22 5.84507e+07 388 2016-07-23 5.93387e+07 389 2016-07-24 6.20894e+07 390 2016-07-25 6.71229e+07 391 2016-07-26 6.72643e+07 392 2016-07-27 6.51556e+07 393 2016-07-28 6.43559e+07 394 2016-07-29 6.07339e+07 395 2016-07-30 5.90618e+07 396 2016-07-31 6.22607e+07 397 2016-08-01 6.61312e+07 398 2016-08-02 6.30796e+07 399 2016-08-03 5.27933e+07 402 2016-08-06 5.11922e+07 403 2016-08-07 5.34139e+07 404 2016-08-08 5.90792e+07 405 2016-08-09 5.881e+07 406 2016-08-10 6.09687e+07 407 2016-08-11 6.03914e+07 408 2016-08-12 5.90467e+07 409 2016-08-13 5.96296e+07 410 2016-08-14 5.96206e+07 411 2016-08-15 6.30528e+07 412 2016-08-16 5.65139e+07 index 25 0 25 我们对这些天做一个重新的预测,利用arima模型