使用者輸入欲搜尋新聞主題,得到 Google 新聞搜尋文字內容,接續使用 Jieba 套件進行斷詞分析,TF-IDF 算法提取關鍵詞,最終生成文字雲。
理想目標:擴大文本搜尋範圍,改善斷詞結果,在網頁前端直接生成文字雲,方便分享至社群平台。
To-do:
- 指定日期範圍搜尋新聞
- 使用正則表達式過濾英文
- 使用 tl-idf 篩選關鍵詞
- 調整圖片遮罩增強視覺效果
- 解決中文新聞日期格式問題
- 使用 CkipTagger 取代 Jieba
- 圖表呈現媒體來源類型(例如:左派右派)
- Python GoogleNews 套件文檔
- Python 斷詞與文字雲教學
- 自動化新聞搜尋實作
- GoogleNews 套件使用教學
- 大數據分析實務-資料分析
- Jieba 與 Gensim 歌詞斷詞分析 / TF-IDF 說明
中研院中文詞知識庫小組計畫主持人馬偉雲專訪內容 https://aiacademy.tw/what-is-nlp-natural-language-processing/