抓取 Google Play Store 資料 use Beautiful Soup on Python 📝
並使用 SQLite 儲存 DB 以及 EXCEL
- 透過 Beautiful Soup 抓取 Google Play Store 資料 (熱門排行榜) 前100筆資料。
- 使用 SQLITE 儲存資料。
- 使用 pyexcel 將資料轉為 Excel。
- example 資料夾底下,有我自己寫的簡單 pyexcel 範例,分別為 DB -> EXCEL ( SQL_Database_To_Excel.py ) 以及 EXCEL -> DB ( Excel_To_SQL_Database.py )
確定電腦有安裝 Python 之後
clone 我的簡單範例
git clone https://github.com/twtrubiks/Google-Play-Store-spider-bs4-excel.git
接著請在 cmd (命令提示字元) 輸入以下指令
pip install -r requirements.txt
抓取 Google Play Store 資料 (熱門排行榜) 前100筆資料。
python app.py
執行畫面
執行完畢後,會將資料存在 app.db 裡,可以使用 SQLiteBrowser 觀看
Item 欄位總共會有 6 個類型,分別為
Android 應用程式類熱門免費下載 、Android 應用程式類熱門付費下載、Android 應用程式類最賣座項目、
遊戲類熱門免費下載、遊戲類熱門付費下載、遊戲類最賣座項目
每種類別各 100 筆資料,每執行一次 app.py ,就會有 600 筆資料 (除非資料有問題)
如果你需要將資料存成 EXCEL
可以再執行
python SQL_Database_To_Excel.py
執行完畢後,會多出名稱為 Excel-data.xlsx
update 2017/2/27
python app_category.py
抓取 Google Play Store topselling_new_free 前 600 資料,
注意,一次 post 最多只能抓 120 筆資料,超過 120 筆資料就會出問題,目前猜測是api設計的規定 ?! ( 不確定 )
- Python 3.4.3
MIT license