python_web_scraping

Python 網路爬蟲講義與範例程式碼

提問

通則
- 「結業前」可提問、討論，要把多餘時間和資源，留給當前上課的學員。
寫信
- E-mail: darren@darreninfo.cc
- 信件標題寫上你的班別和姓名，或是在哪裡參與我的課程，例如 [資展 BDSEXX / 臺大計中 / 聯成] 你的主旨 ○○○。
- 提問的內容要與本專案有關，其它課程的部分，去請益原本授課的老師。
- 不要把程式碼寄給我，可能沒時間看，討論儘量以解決問題的方向為主。
- 不符合以上幾點，將直接刪除，敬請見諒。

作業

僅限授課學員。
同學之間可以互相討論，但千萬不要抄襲。
使用 requests 和 BeautifulSoup，或是 selenium 來爬取網站資料。
- Project Gutenberg
  - 爬取中文書籍資料 (注意: 只要取得中文字，不要英文字。)
    - 可使用選擇器 li.pgdbetext > a[href] 來檢視相關連結數量。
    - 取得中文字的正規表示式: 正則表達式-全型英數中文字、常用符號unicode對照表
  - 80 分條件
    - 新增 project_gutenberg 資料夾，並將每一本書的中文內容存入 txt 檔，txt 的檔名是超連結名稱，例如 豆棚閒話.txt。
      - 注意：每一個 txt 都會被存在 project_gutenberg 資料夾內。
    - 錄製執行過程，並提供影片連結，可以放在 YouTube 或是 Google Drive，影片當中要隨機打開 3 個 .txt，驗證內容是否是純中文字 (不要英文字)。
    - 至少要有 200 本，少 1 本扣 1 分，要在影片中顯示 .txt 的數量，例如在檔案總管的某一個角落，有寫著檔案總數。
    - 不用給我看程式碼，也不用邊寫邊執行，錄製的時候直接執行程式、直接爬取資料到 project_gutenberg 即可。
    - 參考影片: 古騰堡計劃（Project Gutenberg）中文電子書爬取
  - 100 分條件 (基於 80 分條件)
    - 使用 GitHub 平台來提交作業，並且將 github repo 連結 以及 影片連結 連結寄給我。
      - Git 與 GitHub 使用教學: 程式與網頁開發者必備技能！Git 和 GitHub 零基礎快速上手，輕鬆掌握版本控制的要訣！
      - Markdown 語法: 如何使用 Markdown 語言撰寫技術文件
    - repository 裡面至少要有 project_gutenberg 資料夾，還有你的 .py 或 .ipynb 檔案，以及 README.md。
      project_gutenberg/ project_gutenberg.ipynb (或 .py) README.md
    - README.md 要有說明 (用 .py 執行要額外說明執行指令或方法)，例如:
      # Project Gutenberg 爬取中文書籍，共 xxx 本。 ## 安裝套件 - requests (版本號) - beautifulsoup4 (版本號) - selenium (版本號) ... (版本號可用 pip list，或是 conda list 來檢視) ... ## 成果 ![](執行過程的擷圖或說明圖片) ... [影片名稱或其它標題](你的影片連結) ... ## 其它你想要補充標題和內容 ... ...
    - 可以參考以前學長的 README 撰寫方式: FaceBook FanPage Scraper with selenium
  - 沒交：0 分。
繳交時間
- 原則上最後一堂課結束後 2 週內，準確時間上課說明。

telunyang/python_web_scraping

python_web_scraping

提問

作業

教學參考影片

延伸應用