/pandas_101

Pandas 101 各題詳解,優化了可讀性,使用向量化,增加使用場景及實用技巧。

Primary LanguageJupyter Notebook

Pandas 101

大量的Series, DataFame操作經常讓你手足無措?

資料處理 - 繁瑣,無趣,卻重要。

鍛煉Pandas最好的方法 :

You should...... → 看別人的code,增加背景知識。

You Must...... → 自己寫,並考慮更好的寫法。從Pandas 101鍛鍊出一個更好的自己

既然推薦自己寫,為何還會有這個 repository?

         解題之外,更好的寫法

Notebook中包含 :

每一題的解答 : (有作者自己解,也有網站上的解),並且總結了 :

備註 描述
可讀性 讓程式碼更容易被看懂,降低合作及自己看code的難度(more readable)。
向量化 在程式碼中避免使用iterrows,apply,利用向量化(vectorlized)的優勢在資料量大時帶來更快的速度。
使用場景 在 machine learning pipeline當中,什麼場景可能會用到這種資操作? (when to use?)
實用技巧 作者自己愛用的一些小技巧,和大家分享(hint)。

如何使用 ?

初學Data Science, Machine Learning :

  • Pandas 101,規劃1-3個月不等,每天3-5題

    鍛鍊出一個更好的自己。

有經驗的Data Scientist :

  • 翻找一些pandas trick,讓自己的工作更有效率。
  • 貢獻自己的Pandas trick,為更多初學者指引一盞明燈。
  • 一起來學習GeoPandas

為何要建立這個 repository 呢?

  1. 作為一位自學Data Science的非本科生,有太多的內容需要我們去學習,從資料庫ETL,SQL,資料清理,探索式分析,特徵工程,建模,一直到模型解釋,橫跨了太多fancy的數學技巧,然而,在實現這些技術的背後,靠的是各項資料處理工具,包含Python中的numpy, pandas, dask, pyspark等。

對資料的操作,貫穿了所有流程,練習資料處理,就像做重訓,有堅實的肌肉,才能跳得高,耐撞,讓我們能夠打一場好球。

  1. 繁體中文的好資源太少,作者貢獻自己的學習歷程,並期待拋磚引玉,引出更強的大神分享經驗!

  2. 作者推薦 : 在你搞好自己的Kaggle成績的同時,每天刷3~5題Pandas 101,讓自己資料處理的等級及效率,上升一個檔次,能夠更有效率地做探索式分析,特徵工程,讓你有更多時間讀自己的深度學習論文。

  3. 作者推薦 : 如果你決定要好好幫自己的pandas技巧打底,建議和numpy101一起服用


作者也很愛的Pandas Trick


GeoPandas 101

作者其他相似Repo

  1. numpy_101
  2. regax tutorial