wallyliu/NCCUnews_crawler

Python

NCCUnews_crawler

此程式用來抓取政大所有新聞，並利用結巴系統斷詞後，計算出新聞中字詞出現的頻率。

預先安裝套件 (可透過pip安裝)

BeautifulSoup

pip install BeautifulSoup

Jieba

pip install jieba

功能簡介

crawler.py：抓取政大的所有新聞，並將每一條新聞儲存成一個檔案。
terms.py：分批抓取檔案，並計算斷詞後的term出現數目，並分批儲存到index檔案中。
integrateTerm.py：將terms整理出來的數目合併，最後輸出所有字詞結果。