/nmtl_dadwt

台語文數位典藏資料庫(Digital Archive Database for Written Taiwanese)

Primary LanguagePython

台語文數位典藏資料庫

介紹

本資料是國史館收集的臺語文資料,目前在網路上有兩個網站。這兩個網站大部份的內容相同,不過可能文章會有小小的不一樣,可以比較著看

資料夾說明

本資料庫包含臺語漢羅及全羅對應的語料,以下依處理方式說明

原始文字檔

此資料夾的資料是台文館計劃ê文本, 是 plain text。

  • kp表示劇本
  • ks表示歌詩
  • sb表示散文
  • ss表示小說。
  • pbk.xls是目錄
  • pbk_校對.xls是校對後的pbk.xls

勘誤

原本的資料有一些缺失,以下整理看到的部份。不過這勘誤是很久以前做的,可能不是很完整

  • 資料路徑
    • 勘誤說明
  • kp/K/1957/KP.1957.Ng5 Hoai5-un.Seng3-kek8 te7 1 chip8_04.tbk.txt
    • 後壁減一字「完」
  • sb/K/1959/SB.1959.Bo5 chu3-beng5.Kim-ku3 E5 Kou3-su7_05.tbk.txt
  • sb/J/1940/SB.1941.Ko Kim-seng.Ko Tek-chiong e5 Sio2-toan7.tbk.txt
    • 應該下佇1941年的資料夾
  • pbk.xls
    • 有2169篇,目錄干焦2163篇
    • 改的是pbk_校對.xls

段落對齊

本資料夾的資料是原始文字檔經過上面的勘誤處理後,用網站介面共漢羅和全羅的段落先對齊,才閣一句一句對齊。對齊後仍有誠萬句漢羅和全羅無法對齊。

裡面的檔案是sql檔,裡面有四個sql table

  • 原始段落資料
    • 原始文字檔匯入的結果
  • 改過段落資料
    • 人工從原始段落資料改成一段對齊一段
  • 原始逝資料
    • 用程式把改過段落資料轉成一句一句
  • 改過逝資料
    • 人工從原始逝資料改成一句對齊一句

當初是使用postgres,不過mysql應該也能匯入

JSON格式資料

sql資料轉做電腦較好處理的json

先得著csv

$ echo drop schema "台語文數位典藏" cascade\; | psql
$ bzcat 段落對齊/段落對齊.sql.bz2 | psql 
$ psql
=# Copy "台語文數位典藏"."改過逝資料" To '/tmp/nmtl.csv' With CSV DELIMITER ',' HEADER;

轉做json

$ python3 csv2json.py  # nmtl.json