/Python-WordCloud

使用者輸入欲搜尋新聞關鍵字,爬取關鍵字文章內容給 Jieba 斷詞,並分析文字產生文字雲。

Primary LanguageJupyter Notebook

Python-WordCloud: 文字雲視覺化應用:新聞關鍵字分析

使用者輸入欲搜尋新聞主題,得到 Google 新聞搜尋文字內容,接續使用 Jieba 套件進行斷詞分析,TF-IDF 算法提取關鍵詞,最終生成文字雲。

理想目標:擴大文本搜尋範圍,改善斷詞結果,在網頁前端直接生成文字雲,方便分享至社群平台。

To-do:

  • 指定日期範圍搜尋新聞
  • 使用正則表達式過濾英文
  • 使用 tl-idf 篩選關鍵詞
  • 調整圖片遮罩增強視覺效果
  • 解決中文新聞日期格式問題
  • 使用 CkipTagger 取代 Jieba
  • 圖表呈現媒體來源類型(例如:左派右派)

文字雲輸出畫面

疫情關鍵字文字雲

新聞關鍵字文字雲

柯文哲關鍵字文字雲

學習資源:

延伸閱讀

中研院中文詞知識庫小組計畫主持人馬偉雲專訪內容 https://aiacademy.tw/what-is-nlp-natural-language-processing/