Pipeline_for_ML_pm2_5 大局 制定問題-預測pm2.5,決定是否要辦戶外商業活動? 選擇性能指標-均方根誤差 檢查假設-是否符合使用者需求 取得資料 下載資料 建立測試組 模型訓練完後,再查看避免data snooping資料窺探偏差 發現資料並視覺化取得見解 尋找相關性與EDA探索資料分析 準備資料供機器學習演算法使用 清理資料 處理文件與分類屬性 轉換器轉換 特徵縮放 轉換pipeline管線化 用訓練組來訓練與評估-各種ML演算法 使用交叉驗證來做更好的評估 微調模型 網格搜尋 隨機搜尋 分析最佳模型與他們誤差-各屬性重要性 用測試組評估系統