/python_web_scraping

Web scraping (網路爬蟲)

Primary LanguageJupyter Notebook

python_web_scraping

Python 網路爬蟲講義與範例程式碼

提問

  • 通則
    • 「結業前」可提問、討論,要把多餘時間和資源,留給當前上課的學員。
  • 寫信
    • E-mail: darren@darreninfo.cc
    • 信件標題寫上你的班別和姓名,或是在哪裡參與我的課程,例如 [資展 BDSEXX] 網路爬蟲問題 - 楊德倫
    • 提問的內容要與本專案有關,其它課程的部分,去請益原本授課的老師
    • 不要把程式碼寄給我,可能沒時間看,討論儘量以解決問題的方向為主。
    • 不符合以上幾點,將直接刪除,敬請見諒。

作業

  • 僅限授課學員。
  • 使用 requestsBeautifulSoup,或是 selenium 來爬取網站資料。
    • Project Gutenberg
      • 爬取中文書籍資料 (注意: 只要取得中文字,不要英文。)
      • 80 分條件
        • 新增 project_gutenberg 資料夾
        • 將每一本書的中文內容存入 txt 檔,txt 的檔名是超連結名稱,例如 豆棚閒話.txt
        • 每一個 txt 都會被存在 project_gutenberg 資料夾內。
        • 至少要有 200 本,少 1 本扣 1 分。
        • 錄製執行過程,並提供影片連結,可以放在 YouTube 或是 Google Drive
        • 不用給我程式碼。
        • 參考影片: 古騰堡計劃(Project Gutenberg)中文電子書爬取
      • 100 分條件 (基於 80 分條件)
      • 沒交:0 分。
  • 繳交時間
    • 原則上最後一堂課結束後 2 週內,準確時間上課說明。

教學參考影片

延伸應用