/100Day-ML-Marathon

第二屆《機器學習百日馬拉松》練習

Primary LanguageJupyter Notebook

100Day-ML-Marathon

第二屆《機器學習百日馬拉松》練習

  • D1: 資料分析與評估
  • D2:EDA-1/讀取資料EDA: Data summary
  • D3: 3-1如何新建一個 dataframe?3-2 如何讀取其他資料? (非 csv 的資料)
  • D4: EDA: 欄位的資料類型介紹及處理
  • D5: EDA資料分佈
  • D6: EDA: Outlier 及處理
  • D7: 常用的數值取代:中位數與分位數連續數值標準化
  • D8: DataFrame operationData frame merge/常用的 DataFrame 操作
  • D9: EDA: correlation/相關係數簡介
  • D10:EDA from Correlation
  • D11:EDA: 不同數值範圍間的特徵如何檢視/繪圖與樣式Kernel Density Estimation (KDE)
  • D12:EDA: 把連續型變數離散化
  • D13:程式實作 把連續型變數離散化
  • D14:Subplots
  • D15:Heatmap & Grid-plot
  • D16:模型初體驗 Logistic Regression
  • D17:特徵工程簡介
  • D18:特徵類型
  • D19:數值型特徵-補缺失值與標準化
  • D20:數值型特徵 - 去除離群值
  • D21:數值型特徵 - 去除偏態
  • D22:類別型特徵 - 基礎處理
  • D23:類別型特徵 - 均值編碼
  • D24:類別型特徵 - 其他進階處理
  • D25:時間型特徵
  • D26:特徵組合 - 數值與數值組合
  • D27:特徵組合 - 類別與數值組合
  • D28:特徵選擇
  • D29:特徵評估
  • D30:分類型特徵優化 - 葉編碼
  • D31:機器學習概論
  • D32:機器學習-流程與步驟
  • D33:機器如何學習?
  • D34:訓練/測試集切分的概念
  • D35:regression vs. classification
  • D36:評估指標選定/evaluation metrics
  • D37:regression model 介紹 - 線性迴歸/羅吉斯回歸
  • D38:regression model 程式碼撰寫
  • D39:regression model 介紹 - LASSO 回歸/ Ridge 回歸
  • D40:regression model 程式碼撰寫
  • D41:tree based model - 決策樹 (Decision Tree) 模型介紹
  • D42:tree based model - 決策樹程式碼撰寫
  • D43:tree based model - 隨機森林 (Random Forest) 介紹
  • D44:tree based model - 隨機森林程式碼撰寫