Pinned Repositories
Use-AI-and-community-data-to-assist-investment-decision-2020
用AI及社群數據協助股票投資決策: 在資訊不對稱的群眾市場,以人工智慧語意技術,分析新聞與論壇內容的消息情報後,進行股價預測。 因為股票市場由群眾決定,因此分析群眾所反映的想法,即可預測市場。本專題針對科技業半導體個股,選擇討論量大、股價波動大的台積電、聯電、聯發科與大盤指數四支股票。以2016到2018年Ptt BBS Stock論壇、mobile01投資與理財(生活娛樂)論壇、yahoo股市重大要聞與最新財經新聞為文本集,建立預測模型並進行移動回測。
Relationship-between-Personality-Traits-and-Instagram-Posts-2020
本專題訓練出一項人格分析模型,利用使用者於Instagram 上發表之文章內容推測出其在社群媒體所展現出的人格特質。本專題以 Jones 和 George (2019) 的課本中提供 Costa 和 McCrae (1986) 所分類出的五大人格特質其中四項之測驗問卷,包含開放性 (Openness) 、 勤 勉 正 直 性(Conscientiousness)、外向性 (Extraversion)、親和性 (Agreeableness),蒐集使用者的測驗結果以及其Instagram貼文作為訓練資料建模,並以政治、娛樂、運動、文學、Youtuber 五大類領域中各二十位名人的Instagram貼文,預測並分析五類領域名人在社群媒體所展現出的人格特質。
Retail-Data-Analysis
針對某女鞋品牌之實際零售數據,包含會員資料、交易資料與網站瀏覽行為資料等,本組目標為根據會員的交易行為對會員進行分群,探究各客群的會員輪廓及行為差異,並據此對各客群給予行銷建議。 首先以RFM(Recency,Frequency,Monetary)為分群特徵,採用k-means將一年內有交易之會員進行分群,最終分為「高價活躍VIP」、「活躍舊客」、「潛力舊客」、「潛力新客」、「潛在流失會員」五個客群。 為了進一步了解各客群的特性,本組探討各群會員輪廓,並進行卡方檢定以驗證變數與分群是否有顯著關聯。 此外,針對各群建構行為關聯矩陣(馬可夫鏈),以分析分析每一客群的行為差異。並結合意藍標籤分析顧客喜好,對於不同潛力客群提供行銷建議。 也計算各客群之顧客終身價值,來作為行銷預算分配的依據。
Classifying-Images-of-Hand-Signs-2019
自行收集0到5的手勢圖片集,使用MXnet Gluon API定義一個CNN model 作為訓練網路模型,以訓練手勢圖像的數字分類。經過多方嘗試,以DenseNet作為網路模型效果最佳。此專題旨在累積1. Manually collect dataset for machine learning 2. Pre-process images for neural network 3. Train a neural network with Gluon API 的經驗。
Analysis-of-Visits-from-Asian-countries-and-regions-2019
亞洲部分國家地區來台人次分析。有鑑於歷年來亞洲地區的來台人次都遠高於其他地區,因而對亞洲部分國家地區來台人次做時間序列分析,預測未來一年每月來台人次並分析季節性指數。根據趨勢圖,大部分國家地區的來台人次都存在長期正向趨勢以及季節性變化。而根據各國家地區的時間序列模型,我們都有足夠證據推論月份對於來台人次是重要變數,且該國家地區的氣候、假期與春節大致上可以解釋季節性指標的變化,因此推測這三項因素可能是影響它們每月來台人次主要的原因。
Analysis-of-Waiting-Time-of-the-store-Shinemood-2018
欲驗證顧客在排隊名店台大小木屋鬆餅的等待時間,與Google所測量的平均等待時間(5.378分鐘)是否有所差異。根據假設檢定結果,我們有足夠證據證明平均排隊等待時間超過5.378分鐘。我們推測Google僅利用GPS定位在該店的人潮以作為平均等待時間,並不能準確推論真正的等待時間。
Department-Competition-Map-2020
大學科系競爭地圖依照學測資料所建構,視覺化的呈現各年度各科系的競爭強弱。競爭地圖假設兩個科系申請學生重複越多,則競爭越激烈,將這個成對的競爭關係,透過t-Distributed Stochastic Neighbor Embedding (t-SNE) 將結果投射到一個二維平面上。
Department-Rankings-based-on-the-Advanced-Subjects-Test-AST-2020
大學科系指考排名分析。由於在指考每個科系可選擇採計科目與各科加權的比重,因此開放資料最低錄取總分無法直接比較。於是發展一套調整權重的方式,在假設各科目分數的分配為多變數常態的前提下,透過統計算式與迴歸模型導出條件期望值的明解,也就是某科系指定考科權重為1時的估計錄取總分,據此計算排名,更公平的比較各科系的最低錄取分數。
Department-Rankings-based-on-the-General-Scholastic-Ability-Test-GSAT-2020
大學科系學測排名分析。從交叉查榜網站爬取學測申請入學考生的科系選擇作資料集。將各考生一階通過的系所作為考生可能的選擇集合,以考生最後錄取的科系為考生最後的選擇,據此資料用stochastic gradient descent算法,計算各年度考生對各系所的偏好分數。
M5-Forecasting-Accuracy-2020
Estimate the unit sales of Walmart retail goods (Kaggle Competition, https://www.kaggle.com/c/m5-forecasting-accuracy, https://www.kaggle.com/c/m5-forecasting-uncertainty/data )
yuhsuanlin23130's Repositories
yuhsuanlin23130/test
yuhsuanlin23130/Use-AI-and-community-data-to-assist-investment-decision-2020
用AI及社群數據協助股票投資決策: 在資訊不對稱的群眾市場,以人工智慧語意技術,分析新聞與論壇內容的消息情報後,進行股價預測。 因為股票市場由群眾決定,因此分析群眾所反映的想法,即可預測市場。本專題針對科技業半導體個股,選擇討論量大、股價波動大的台積電、聯電、聯發科與大盤指數四支股票。以2016到2018年Ptt BBS Stock論壇、mobile01投資與理財(生活娛樂)論壇、yahoo股市重大要聞與最新財經新聞為文本集,建立預測模型並進行移動回測。
yuhsuanlin23130/M5-Forecasting-Accuracy-2020
Estimate the unit sales of Walmart retail goods (Kaggle Competition, https://www.kaggle.com/c/m5-forecasting-accuracy, https://www.kaggle.com/c/m5-forecasting-uncertainty/data )
yuhsuanlin23130/Retail-Data-Analysis
針對某女鞋品牌之實際零售數據,包含會員資料、交易資料與網站瀏覽行為資料等,本組目標為根據會員的交易行為對會員進行分群,探究各客群的會員輪廓及行為差異,並據此對各客群給予行銷建議。 首先以RFM(Recency,Frequency,Monetary)為分群特徵,採用k-means將一年內有交易之會員進行分群,最終分為「高價活躍VIP」、「活躍舊客」、「潛力舊客」、「潛力新客」、「潛在流失會員」五個客群。 為了進一步了解各客群的特性,本組探討各群會員輪廓,並進行卡方檢定以驗證變數與分群是否有顯著關聯。 此外,針對各群建構行為關聯矩陣(馬可夫鏈),以分析分析每一客群的行為差異。並結合意藍標籤分析顧客喜好,對於不同潛力客群提供行銷建議。 也計算各客群之顧客終身價值,來作為行銷預算分配的依據。
yuhsuanlin23130/Vehicle-Detection-2019
以 SSD (Single Shot MultiBox Detector)進行車輛偵測與車種辨識。以 ImageNet 公開資料蒐集Ambulance, Compact car, Fire truck, Garbage truck, Minibus等13個類別圖片作為本組的車種圖片集,將資料集製作成VOCdevkit格式,並建構 SSD 訓練模型進,進行圖片與影像的車輛偵測和車種分類預測。模型分類預測的準確率大約在74%。
yuhsuanlin23130/Classifying-Images-of-Hand-Signs-2019
自行收集0到5的手勢圖片集,使用MXnet Gluon API定義一個CNN model 作為訓練網路模型,以訓練手勢圖像的數字分類。經過多方嘗試,以DenseNet作為網路模型效果最佳。此專題旨在累積1. Manually collect dataset for machine learning 2. Pre-process images for neural network 3. Train a neural network with Gluon API 的經驗。
yuhsuanlin23130/Department-Rankings-based-on-the-Advanced-Subjects-Test-AST-2020
大學科系指考排名分析。由於在指考每個科系可選擇採計科目與各科加權的比重,因此開放資料最低錄取總分無法直接比較。於是發展一套調整權重的方式,在假設各科目分數的分配為多變數常態的前提下,透過統計算式與迴歸模型導出條件期望值的明解,也就是某科系指定考科權重為1時的估計錄取總分,據此計算排名,更公平的比較各科系的最低錄取分數。
yuhsuanlin23130/University-Department-Rankings-2020
針對2019年的指考排名與學測偏好分數排名進行大學科系排名分析。 用散佈圖視覺化的呈現各系所指考排名與學測偏好係數排名的分布關係,並且用迴歸模型分析群組的指考排名與學測排名差距均數。 從迴歸模型的結果得到有趣的驗證: 對於第一、二類組,國立大學的指考排名均數有好於學測排名均數的現象,而私立大學則恰恰相反。
yuhsuanlin23130/Department-Rankings-based-on-the-General-Scholastic-Ability-Test-GSAT-2020
大學科系學測排名分析。從交叉查榜網站爬取學測申請入學考生的科系選擇作資料集。將各考生一階通過的系所作為考生可能的選擇集合,以考生最後錄取的科系為考生最後的選擇,據此資料用stochastic gradient descent算法,計算各年度考生對各系所的偏好分數。
yuhsuanlin23130/Analysis-of-Visits-from-Asian-countries-and-regions-2019
亞洲部分國家地區來台人次分析。有鑑於歷年來亞洲地區的來台人次都遠高於其他地區,因而對亞洲部分國家地區來台人次做時間序列分析,預測未來一年每月來台人次並分析季節性指數。根據趨勢圖,大部分國家地區的來台人次都存在長期正向趨勢以及季節性變化。而根據各國家地區的時間序列模型,我們都有足夠證據推論月份對於來台人次是重要變數,且該國家地區的氣候、假期與春節大致上可以解釋季節性指標的變化,因此推測這三項因素可能是影響它們每月來台人次主要的原因。
yuhsuanlin23130/Analysis-of-Waiting-Time-of-the-store-Shinemood-2018
欲驗證顧客在排隊名店台大小木屋鬆餅的等待時間,與Google所測量的平均等待時間(5.378分鐘)是否有所差異。根據假設檢定結果,我們有足夠證據證明平均排隊等待時間超過5.378分鐘。我們推測Google僅利用GPS定位在該店的人潮以作為平均等待時間,並不能準確推論真正的等待時間。
yuhsuanlin23130/Department-Competition-Map-2020
大學科系競爭地圖依照學測資料所建構,視覺化的呈現各年度各科系的競爭強弱。競爭地圖假設兩個科系申請學生重複越多,則競爭越激烈,將這個成對的競爭關係,透過t-Distributed Stochastic Neighbor Embedding (t-SNE) 將結果投射到一個二維平面上。
yuhsuanlin23130/Relationship-between-Personality-Traits-and-Instagram-Posts-2020
本專題訓練出一項人格分析模型,利用使用者於Instagram 上發表之文章內容推測出其在社群媒體所展現出的人格特質。本專題以 Jones 和 George (2019) 的課本中提供 Costa 和 McCrae (1986) 所分類出的五大人格特質其中四項之測驗問卷,包含開放性 (Openness) 、 勤 勉 正 直 性(Conscientiousness)、外向性 (Extraversion)、親和性 (Agreeableness),蒐集使用者的測驗結果以及其Instagram貼文作為訓練資料建模,並以政治、娛樂、**、文學、Youtuber 五大類領域中各二十位名人的Instagram貼文,預測並分析五類領域名人在社群媒體所展現出的人格特質。
yuhsuanlin23130/python-stegosploit
Python port of stegosploit toolkit
yuhsuanlin23130/stegosploit