1.首先采集每日票房数据,使用get_movie_data 2.然后采集上证指数数据,使用shanghai_composite_index 3.然后采集华谊兄弟的股票数据,使用huayixongdi_composite_index 4.采集华谊兄弟的电影名单,使用huayixiongdi_movies,一共有两份,一份是电影制作名单,一份是电影发行名单 5.在每日票房数据中挑出来华谊兄弟的电影数据,另外添加两个特征,一个是华谊兄弟制作,一个是发行,用1,0表示,使用make_cleandata 6.计算华谊兄弟当日电影票房之和,经过考虑先将发行和制作特征放弃,上座率取当日华谊兄弟上映电影的最高值, 再加上去年电影总票房数据。使用_____(没找到,重新写吧) 7.分析数据。现在华谊兄弟电影数据的特征:当日票房,上座率,去年电影总票房 首先确认研究目标,即某日(m日)电影票房与第二天该电影公司股价涨幅关系,第二天涨幅指的是第三天开盘价与第二天开盘价的差价。这时候 又多了一个特征:第二天开盘价买入的时候是知道的,也就是说第二天开盘价与m日的差价是开仓的时候已经知道了。这当做一个新加的特征。 首先将上证指数的日期列提取出来 然后制造12-18年这个时间段的递增日期A 我们主要是要过滤掉停牌时间,还有节假日时间。比如周五和下周一这样就要删除 for i in range(2, len(data_hy_date)-1): # 这是个递减的日期 date = data_hy_date[i] m = a_dates.index(date) #这是取票房的时间index n = sz_date.index(date) # 这是大盘对应的时间index if data_hy_date[i-1]== sz_date[n+1] and data_hy_date[i+1]== sz_date[n-1] :#如果第二天没停牌 从华谊兄弟开盘日期里取出日期,记住这个日期在A中的位置和在指数日期的位置,如果华谊兄弟下一个日期和指数的下一个日期相等说明 明天没有停盘,如果华谊兄弟上一个日期和上证指数上一个日期相同说明昨天也没停盘,然后取出上一天的一天的票房信息 其他隔2,3,4天的类似。 差价:考虑到交易成本,我将连续数值型变为离散型数据,当>0.2时候为1。<为0 8.用机器学习运算数据 还未注释,持续更新 测试完记得写一个统一接口 9.昨天面试官跟我讲应该将票房这个特征归一化,我当时确实也考虑这个,然后把去年票房加了上去,这个应该方式不对。我当时的想法是机器学习自然 会发现当天票房和去年票房之间的关系,这个是错误的,比如线性回归的问题,如果要发现规律,也是和去年票房当时之间的关系。现在有两种选择,一种是 用该天票房除以去年票房,一种是将去年票房列修改为倒数。先搁置再说吧。