Pipeline_for_ML_pm2_5

pm25_scatterplot

大局

  1. 制定問題-預測pm2.5,決定是否要辦戶外商業活動?

  2. 選擇性能指標-均方根誤差

  3. 檢查假設-是否符合使用者需求

取得資料

下載資料

建立測試組

模型訓練完後,再查看避免data snooping資料窺探偏差

發現資料並視覺化取得見解

尋找相關性與EDA探索資料分析

準備資料供機器學習演算法使用

  1. 清理資料

  2. 處理文件與分類屬性

  3. 轉換器轉換

  4. 特徵縮放

  5. 轉換pipeline管線化

用訓練組來訓練與評估-各種ML演算法

使用交叉驗證來做更好的評估

微調模型

  1. 網格搜尋
  2. 隨機搜尋

分析最佳模型與他們誤差-各屬性重要性

用測試組評估系統