-
資料集說明(來源: TEJ):
以季為單位,抓取2016/1/11~2018/9/7期間(股市穩定區間),共11季
共蒐集402支電子類股股票資料,共4,539筆
使用股票間標準一致的指標:
每股淨值(F)-TSE公告數、營業毛利率、營業利益率、稅後淨利率、ROA-綜合損益、ROE-綜合損益、常續性EPS
-
資料清洗:
因NA值極少,且無法確定其來源是否為TEJ錯誤,故一律刪除
因本次的進行進出場分析是以投資為目的,表現較差的股票不在投資名單中,故只保留ROA 11季總和>0的股票,共315支電子類股
-
GMM分群:
因傳統硬分群(如:K-means)會無法分辨出落在邊界上的點,故使用軟分群來觀察每個點在每群的機率
又因本次想藉由分群去抓出美群最具樣本代表性的股票,藉此回推整個電子類股(母題),故選擇以統計為主的GMM演算法
透過BIC指標(如下圖)決定本次分兩群
由分群結果發現群一各指標均值,皆小於群二,推測群二是表現較好的電子類股
藉由GMM的最大分群機率挑出最具樣本代表性的股票,群一代表為敦陽科,群二代表為旭隼
-
第一階段結果:
挑出敦陽科、旭隼兩支最具樣本代表性的股票,有足夠力度回推整個電子類股,故後續針對兩支股票進行分類預測&指標分析
本次特別採用統計抽樣的概念,取代將所有股票都進行分類預測,以避免預測效果不佳的情形
-
資料集說明(來源: TEJ):
抓取2016/1/11~2018/9/7期間(股市穩定區間),旭隼(672筆)、敦陽科(651筆)每日各指標資料
應變量: 買進、賣出、持有,共3個類別,分別為1~3
自變量: 使用股票間標準一致的指標,如下
投信持股率、自營持股率、合計持股率、投信週轉率、自營商週轉率、外資週轉率、當沖比重資券互抵、現股當沖比重、現沖加當沖比重、本益比TSE、股價淨值比TSE、股利殖利率TSE、nas收盤、加權收盤、費半收盤
-
資料清洗:
因NA值無法確定其來源是否為TEJ錯誤,故一律刪除
因 NAS & 費半指標預設為美國日期,所以轉成與其對應的台灣日期
-
建立隨機森林模型
因本次為次序資料做分類預測,且後續須針對指標進行說明,故傳統的自迴歸(ARIMA系列)、神經網路不太適合
故捨棄使用次序相關模型(後續建模不考慮次序),考慮常見分類模型,包含 XGB SVM 隨機森林
將兩支股票資料各自建立模型,最終皆以隨機森林的8成準確度最高,F1 score也以隨機森林最高。
-
分類預測結論
產出預測模型,未來僅需將上述自變量指標投入,即可知道該買進、賣出,還是持有
有助於非從業人員投資股票
-
資料集說明(來源: 模型產出):
延續第二階段的指標,如下:
投信持股率、自營持股率、合計持股率、投信週轉率、自營商週轉率、外資週轉率、當沖比重資券互抵、現股當沖比重、現沖加當沖比重、本益比TSE、股價淨值比TSE、股利殖利率TSE、nas收盤、加權收盤、費半收盤
依照所有指標的特徵工程結果,分成重要(1)與不重要(0)
-
特徵工程(整理成關聯格式資料)
觀察各指標在各種特徵工程方法中的表現
類似的特徵工程會擇一使用,如: ridge & lasso 擇一,避免關聯分析的權重不同
隨機森林以大於整體GINI平均值,來判定屬於重要指標 XGB以大於整體Gain平均值,來判定屬於重要指標 SVM以大於整體AAD平均值,來判定屬於重要指標 ridge迴歸以beta大於整體平均值,來判定屬於重要指標 fisher score以落在前8名,來判定屬於重要指標
-
關聯分析(by Apriori): 擷取重要指標
觀察出現頻率(coverage-覆蓋率)可以發現,本益比TSE、股利殖利率TSE最高,故為最重要的兩個指標
觀察交互影響(JC-相似度)可以發現,以下五種組合,只要當中一個指標被列為重要,剩餘指標也一定會重要:
nas收盤 & 費半收盤 投信週轉率 & 自營持股率 & 自營商週轉率 投信持股率 & 加權收盤股利殖利率 & TSE合計持股率 & 自營持股率 & 股價淨值比TSE & 費半收盤 投信持股率 & 現沖加當沖比重 & 現股當沖比重 & 合計持股率 自營持股率 & 自營商週轉率 & 合計持股率
影片-前導版: https://www.youtube.com/watch?v=-ikwYKZIQtk
影片-完整版: https://www.youtube.com/watch?v=Ilt0X4h0ALc
會議記錄: https://www.notion.so/32e24a35c85242aaba895f4611d95ea4