Overview
該專案的內容與「網路爬蟲」有關。以下的程式碼是一堂線上課程的作業,這些作業能使人循序漸進地了解網路爬蟲的實作技巧。在該門課的期末專題裡,我以Tkinter寫了一個GUI,該GUI能爬取Cupoy的新聞並做一些資料分析。若想知道更多內容,可向下瀏覽,或是點擊右方連結 官方網站連結 查看
Course Content
Part01:爬蟲基礎知識
- Day 1 資料來源與檔案存取
- Day 2 實作 Day:Python 下載CSV檔案與解析
- Day 3 實作 Day:Python 下載XML檔案與解析
- Day 4 HTTP Server-Client 架構說明與 利用 Python 存取 API
- Day 5 實作 Day:API 資料串接 - 基本 API + JSON
- Day 6 實作 Day:API 資料串接 - Headers
Part02:靜態網頁爬蟲技術
- Day 7 HTTP 靜態網頁架構說明與淺談HTML / CSS / JavaScript
- Day 8 靜態網頁的資料爬蟲策略
- Day 9 圖片下載
- Day 10 PyQuery/grab
- Day 11 Regular expression
- Day 12 實作 Day:ETTODAY 靜態爬蟲實作練習
- Day 13 實作 Day:PTT(批踢踢)網路爬蟲實作練習
- Day 14 實作 Day:Yahoo! 電影網頁爬蟲實作練習
- Day 15 實作 Day:金融資訊網頁爬蟲實作練習
- Day 16 實作 Day:Wiki的爬蟲實作練習
Part03:動態網頁爬蟲技術
- Day 17 HTTP 動態網頁架構說明與非同步取得資料
- Day 18 瀏覽器開發者工具介紹
- Day 19 動態網頁爬蟲 - 使用Selenium + BeautifulSoup 模擬瀏覽器執行
- Day 20 動態網頁爬蟲 - 利用開發者工具,觀察模擬 API 存取
- Day 21 實作 Day:ETTODAY 動態爬蟲實作練習
- Day 22 實作 Day:空氣污染網站爬蟲實作練習
- Day 23 實作 Day:東森新聞雲網站爬蟲實作練習
- Day 24 實作 Day:104人力銀行網站爬蟲實作練習
Part04:Scrapy網站爬蟲框架
- Day 25 多網頁爬蟲實作策略介紹
- Day 26 Scrapy 爬蟲流程(1):建立流程 + 送出請求
- Day 27 Scrapy 爬蟲流程(2):XPath + Item Pipeline
- Day 28 Scrapy 爬蟲流程(3):API
- Day 29 Scrapy 爬蟲流程(4):多網頁爬蟲
Part05:進階爬蟲技術
- Day 30 爬蟲可能會遇到的問題
- Day 31 反爬:瀏覽器標頭與基本資訊
- Day 32 反爬:驗證碼處理
- Day 33 反爬:登入授權模擬
- Day 34 反爬:代理 IP
- Day 35 加速:多線程爬蟲
- Day 36 加速:非同步爬蟲
- Day 37 自動化更新機制(排程)
期末專題 : Cupoy新聞爬蟲暨資料分析
摘要 :
利用 Python 爬取 Cupoy 上的新聞資訊,爾後再對新聞進行相關分析。最後成果為一圖形使用者介面,該介面可爬取並印出Cupoy的新聞種類、標題、簡介和網址。更進一步,能對這些資料進行分析,進而能繪出圓餅圖、文字雲,分析文章的正面情緒機率等等
安裝方法 :
該程式由本人撰寫,有興趣者可自由下載,以下提供安裝方法。首先,需把程式內使用到的套件安裝起來。在 Anaconda Prompt 輸入下列命令即可
$ pip install selenium
$ pip install BeautifulSoup
$ pip install jieba
$ pip install snownlp
$ pip install wordcloud
之後,從該載點 程式載點 ,下載 chromedriver.exe、stopWords.txt、Cupoy Web Crawler.py 三個檔案,並將這三個檔案放進相同的路徑。最後,使用 Anaconda Prompt 移動至該路徑,再以「python Cupoy Web Crawler.py」執行程式,便能開啟 GUI,介面如下圖所示
# Anaconda Prompt 指令
$ cd folder
$ python Cupoy Web Crawler.py
介面 :
補充說明 :
若想知道更多關於本專案的內容,請點擊右方連結 Cupoy新聞爬蟲暨資料分析 查看。若喜歡本專題,該篇文章及程式碼有幫助到你的話,請不吝順手點個Star哦