資料新聞工作坊:挖掘新聞問題與資料集

By 柯皓翔 (**社媒體實驗室 數據編輯)

2019/4/3 @ NCCU

我的資料新聞經驗

資料科學模式流程

挖掘問題

  • 背景資料收集很重要
  • 資料套疊
  • 旁敲側擊
  • 時序變化
  • 領域知識/採訪

資料集

資料本身

  • 文字、影像、數值等紀錄皆是資料的範疇
  • 常見檔案格式(csv, json)
  • 進階檔案格式(kml)

資料來源

  • 學者的研究
  • 資料可不可信?
  • 問卷調查
  • NGO組織
  • 群眾協力
  • 自己爬數據
  • Open data
  • 權威機構DATABASE e.g. World Bank /WHO / UN(最好交叉驗證)
  • 自己建的資料庫正夯(WAPO做槍擊)

常見問題

  • 資料本身處理不便(pdf、紙本)---> Tableau、工具影像辨識
  • 資料不全,缺欄位 ---> 揭露研究方法
  • 資料不同年代的差異(如選舉數據)
  • 數據收集方式、統計方式可能影響判讀,留意滾動修正、時間點分類差異
  • 兜圈一場空的風險、證明某個領域的常識

敘事上的建議

  • 「概覽」打包
  • 除了數據之外,「故事」能不能打動人

如果想從事資料新聞

  • 技能面準備到什麼程度(前端網頁、設計美感、有沒有辦法跨領域溝通)
  • 成本高,若一場空,可轉化為其他效益
  • Domain Knowledge不宜偏廢,還是要有關注的議題
  • 一頭熱、冷卻,成本高、不確定性風險高
  • 分工在實務上還是很需要,尤其針對時效性高的題目
  • 在一些媒體變成編輯的分支技能,少部分媒體轉職,可能製作資訊圖表,更多其實以前都在做了
  • 採訪還是很吃重,組織內部門是否能妥善分工?記者的人脈能否支援?或者你能不能當記者後盾?

ASK ME ANYTHING