/parallel_corpus_mnbvc

parallel corpus dataset from the mnbvc project

Primary LanguageJupyter NotebookApache License 2.0Apache-2.0

MNBVC 平行语料

欢迎来到 MNBVC 平行语料小组 的总仓库。本仓库主要用于:

  • 存放零散代码
  • 分配小组成员任务
  • 公示统一的平行语料文件格式

注意: 对于独立性强、文件数量多、组织结构复杂的任务,我们建议自己建立独立仓库来维护代码。

招募成员

字幕语料任务

  • 需求(任一即可):
    • 有在至少包含中英双语的字幕组工作的经验
    • 拥有相关人脉,能够与字幕数据持有者沟通
  • 详情:字幕语料任务

歌词语料任务

  • 需求(任一即可):
    • 曾在任意平台收集过含中英双语的歌词,手头有相关数据
    • 了解歌词版权相关问题
  • 详情:歌词语料任务

游戏语料任务

  • 需求(任一即可):
    • 热爱游戏,拥有丰富的游戏库,愿意提供大型游戏包体或者账号
    • 有时间研究游戏解包,提取本地化数据
  • 详情:游戏语料任务

探索其它平行语料

  • 需求:
    • 有充足的时间进行网上冲浪
    • 能够理解平行语料是什么
    • 习惯于 markdown 语法,能够为其它成员调研、收集可以下手的网站链接

有其它任务的idea?欢迎来issues区提问开坑!

加入方式

  1. 先去 MNBVC 总仓库 了解一下项目总体情况
  2. 发送申请邮件至: MNBVC@253874.net 内容简要写写自己愿意做哪块工作即可
  3. 通过后会拉微信小群,有后续问题直接在小群提问即可。在小群内讨论工作内容,每周六 16:00 同步一下进度

常用链接

平行语料小组 wiki

语料格式检查工具 DataCheck_MNBVC

临时文件微云共享站, 加入微信小组群方可获得加入共享组链接

组织规范

  • 每周六 16:00 组织例会同步进度
  • 以 Issues 来管理进度、分配任务
  • 对于每个独立的任务如果需要传至本仓库,请建一个能够用小写英文+数字+下划线的,能够说明任务内容的文件夹,然后提起 pull request,并且在该文件夹下建立一个 README 来介绍上传内容
  • 微信群内发出来的文件,如果是重要的需要在未来下载的,应该在共享站内也传一份

语料文件格式

语料文件是多行 jsonl 格式,这是其中一行的样例(实际上一行即为一个json,不需要缩进打印):

{
    "文件名": "Terraria-workshop-localization_test2.jsonl",
    "是否待查文件": false,
    "是否重复文件": false,
    "段落数": 17944,
    "去重段落数": 0,
    "低质量段落数": 0,
    "行号": 1,
    "是否重复": false,
    "是否跨文件重复": false,
    "it_text": "",
    "zh_text": "正在生成海洋沙",
    "en_text": "Generating ocean sand",
    "ar_text": "",
    "nl_text": "",
    "de_text": "",
    "eo_text": "",
    "fr_text": "Génération du sable de l'océan",
    "he_text": "",
    "ja_text": "",
    "pt_text": "Gerando areia do oceano",
    "ru_text": "Создание песка в океане",
    "es_text": "",
    "sv_text": "",
    "ko_text": "",
    "th_text": "",
    "id_text":"",
    "cht_text":"",
    "vi_text":"",
    "扩展字段": "{\"other_texts\": {\"cs\": \"Generování mořského písku\", \"pl\": \"Generowanie piasku morskiego\", \"hu\": \"Tengeri homok elhelyezése\", \"uk\": \"Генерація океанського піску\", \"tr\": \"Okyanus kumu üretme\"}}",
    "时间": "20240316",
    "zh_text_md5": "b656579704c6ca5acc29f2aa36159ce2"
}

为了防止迷惑,这里给出一份实际上已收录的 底特律:变人 的语料的前三行样例:

{"ar_text": "", "cht_text": "我不認為我們還能找到比這裡更好的……", "de_text": "Wir werden nichts Besseres finden ...", "en_text": "I don't think we'll find anything better…", "eo_text": "", "es_text": "No encontraremos nada mejor.", "fr_text": "Je doute qu'on trouve mieux que ça.", "he_text": "", "id_text": "", "it_text": "Sarà difficile trovare di meglio...", "ja_text": "ここが一番マシそうね", "ko_text": "여기보다 나은 곳은 없는 것 같아...", "nl_text": "Ik denk niet dat we iets beters zullen vinden.", "pt_text": "Não vamos encontrar melhor do que isto...", "ru_text": "Вряд ли мы найдем что-то лучше.", "sv_text": "Jag tror inte att vi kommer hitta något bättre än så här.", "th_text": "", "vi_text": "", "zh_text": "我不认为我们还能找到比这里更好的……", "zh_text_md5": "dfa2ca6972a916ec64680d8f1453f85c", "低质量段落数": 0, "去重段落数": 2102, "扩展字段": "{\"other_texts\": {\"cs\": \"Myslím, že nic lepšího nenajdeme.\", \"da\": \"Vi finder nok ikke noget bedre.\", \"el\": \"Δεν νομίζω ότι θα βρούμε κάτι καλύτερο από αυτό...\", \"es_MX\": \"No creo que encontremos algo mejor...\", \"fi\": \"En usko, että löydämme mitään parempaakaan...\", \"hu\": \"Nem hiszem, hogy találunk ennél jobbat.\", \"nb\": \"Jeg tror ikke vi finner noe bedre enn dette.\", \"pl\": \"Nic lepszego raczej nie znajdziemy...\", \"pt_BR\": \"Não vamos encontrar um lugar melhor...\", \"sl\": \"\", \"tr\": \"Daha iyisini bulacağımızdan şüpheliyim...\"}}", "文件名": "DetroitBecomeHuman-parallel_corpus.jsonl", "时间": "20241001", "是否待查文件": false, "是否跨文件重复": false, "是否重复": false, "是否重复文件": false, "段落数": 12407, "行号": 1}
{"ar_text": "", "cht_text": "就在這裡過夜吧。", "de_text": "Machen wir‘s uns gemütlich.", "en_text": "Let's settle in for the night.", "eo_text": "", "es_text": "Nos quedaremos hoy aquí.", "fr_text": "Installons-nous pour la nuit.", "he_text": "", "id_text": "", "it_text": "Passeremo la notte qui.", "ja_text": "ここで寝ましょう", "ko_text": "오늘 밤은 여기서 보내자.", "nl_text": "Laten we hier vannacht blijven.", "pt_text": "Vamos instalar-nos para a noite.", "ru_text": "Будем ночевать здесь.", "sv_text": "Vi får slå oss ned för natten.", "th_text": "", "vi_text": "", "zh_text": "就在这里过夜吧。", "zh_text_md5": "59bbf0b5cef5cd943cd0ba59acd1e7c4", "低质量段落数": 0, "去重段落数": 2102, "扩展字段": "{\"other_texts\": {\"cs\": \"Tak se na noc utáboříme tady.\", \"da\": \"Lad os sove her.\", \"el\": \"Ας μείνουμε εδώ τη νύχτα.\", \"es_MX\": \"Instalémonos por hoy.\", \"fi\": \"Asetutaan tänne yöksi.\", \"hu\": \"Húzódjunk be éjszakára.\", \"nb\": \"Vi slår oss ned her for natten.\", \"pl\": \"Spróbujmy się rozgościć.\", \"pt_BR\": \"Vamos ficar aqui.\", \"sl\": \"\", \"tr\": \"Bu gecelik yerleşelim.\"}}", "文件名": "DetroitBecomeHuman-parallel_corpus.jsonl", "时间": "20241001", "是否待查文件": false, "是否跨文件重复": false, "是否重复": false, "是否重复文件": false, "段落数": 12407, "行号": 2}
{"ar_text": "", "cht_text": "我來生火。", "de_text": "Ich mache ein Feuer an.", "en_text": "I'll get a fire going.", "eo_text": "", "es_text": "Encenderé un fuego.", "fr_text": "Je vais faire du feu.", "he_text": "", "id_text": "", "it_text": "Accendo un fuoco.", "ja_text": "火をおこすよ", "ko_text": "내가 불 피울게.", "nl_text": "Ik zal vuur maken.", "pt_text": "Vou fazer uma fogueira.", "ru_text": "Я разведу огонь.", "sv_text": "Jag tänder en brasa.", "th_text": "", "vi_text": "", "zh_text": "我来生火。", "zh_text_md5": "552f113da3617f26fa2c6ca9dfa21836", "低质量段落数": 0, "去重段落数": 2102, "扩展字段": "{\"other_texts\": {\"cs\": \"Rozdělám oheň.\", \"da\": \"Jeg tænder et bål.\", \"el\": \"Θα ανάψω φωτιά.\", \"es_MX\": \"Yo prenderé una fogata.\", \"fi\": \"Minä sytytän tulen.\", \"hu\": \"Gyújtok tüzet.\", \"nb\": \"Jeg tenner opp.\", \"pl\": \"Zajmę się ogniskiem.\", \"pt_BR\": \"Vou acender o fogo.\", \"sl\": \"\", \"tr\": \"Ben ateşle uğraşayım.\"}}", "文件名": "DetroitBecomeHuman-parallel_corpus.jsonl", "时间": "20241001", "是否待查文件": false, "是否跨文件重复": false, "是否重复": false, "是否重复文件": false, "段落数": 12407, "行号": 3}

注意: 所有语种字段的双字母缩写优先参考 ISO 639-1 的定义,并且优先填写如 ar_text 的主要字段中,如果没有,则根据 iso 双字母简写填入扩展字段中。如果所收录语言并不在 iso 639-1 双字母简写表中,请自己起一个不与其他双字母简写有冲突的key名写到扩展字段中,并将其 key 名和对应的语种作为注释写到文件级扩展字段中。

关于扩展字段

扩展字段应该是 json 序列化后的字符串,如在 python3 中,应该是某个 json.dumps(obj, ensure_ascii=False) 的产物。

目前的扩展字段约定如下:

{
    other_texts: { # 填写主字段中没有的,但源数据中存在的其它语言
        {lang1_iso}: "",
        {lang2_iso}: ""
    },
    k: "_SCENE1_TEXT_TITLE" # 可选,如果有必要的话,可以用于填写源数据中的 key,即对齐依据
    ...
}

注意: 扩展字段内容的定义可能会频繁更新,但至少需要是一个有效的 json 字符串。即使没有东西填写,也应该保留一个 {}

添加新的语料数据集的规范

  1. 复制以下模板,你的脚本或者你的方法应该尽可能填写其中未标明 【不用手填】 的所有字段。如果某个主字段中的语言没有出现,则应该填写 ""
{
    "文件名": "Terraria-workshop-localization_test2.jsonl",
    "是否待查文件": false,      【不用手填】
    "是否重复文件": false,      【不用手填】
    "段落数": 17944,            【不用手填】
    "去重段落数": 0,            【不用手填】
    "低质量段落数": 0,          【不用手填】
    "行号": 1,                  【不用手填】
    "是否重复": false,          【不用手填】
    "是否跨文件重复": false,    【不用手填】
    "zh_text_md5": "b656579704c6ca5acc29f2aa36159ce2",   【不用手填】
    "it_text": "",
    "zh_text": "正在生成海洋沙",
    "en_text": "Generating ocean sand",
    "ar_text": "",
    "nl_text": "",
    "de_text": "",
    "eo_text": "",
    "fr_text": "Génération du sable de l'océan",
    "he_text": "",
    "ja_text": "",
    "pt_text": "Gerando areia do oceano",
    "ru_text": "Создание песка в океане",
    "es_text": "",
    "sv_text": "",
    "ko_text": "",
    "th_text": "",
    "id_text":"",
    "cht_text":"",
    "vi_text":"",
    "扩展字段": "{\"other_texts\": {\"cs\": \"Generování mořského písku\", \"pl\": \"Generowanie piasku morskiego\", \"hu\": \"Tengeri homok elhelyezése\", \"uk\": \"Генерація океанського піску\", \"tr\": \"Okyanus kumu üretme\"}}",
    "时间": "20240316"
}

注意: 出于小组工作性质,我们应该收录的是至少包含 简体中文或繁体中文 且包含对应的 英文 的语料。

  1. 将得到的语料通过本仓库下的 jsonl_chk.py 的后处理,以完成简单去重和 【不用手填】 字段的自动填写,用法为 python out.jsonl 或者用 python -d outdir/ 的方式处理整个目录下的 jsonl 文件。在其 jsonl_rework 文件夹下会得到后处理完毕的 jsonl 文件。

  2. 将得到的语料通过 语料格式检查工具 DataCheck_MNBVC 的检测,python check_data.py --dataset your_folder_path,其中 your_folder_path 为待检测语料数据所在的文件夹。

datachecker执行完毕后,如果日志文件 \logs\check_log.txt 显示:

checking dataset: your_file_path
the type of dataset your_file_name is 平行语料格式
check dataset your_file_name finished, right line 1 / total check line 1

则表示格式检测通过

  1. 带着第 3 步通过的截图在小组群内发布你的 jsonl 语料,并且在中转站中传一份避免日后丢失。
【旧版语料,已废弃】
{
    "文件名": "Terraria-workshop-localization_test2.jsonl",
    "是否待查文件": false,
    "是否重复文件": false,
    "段落数": 17944,
    "去重段落数": 0,
    "低质量段落数": 0,
    "段落": [
        {
            "行号": 1,
            "是否重复": false,
            "是否跨文件重复": false,
            "it_text": "",
            "zh_text": "正在生成海洋沙",
            "en_text": "Generating ocean sand",
            "ar_text": "",
            "nl_text": "",
            "de_text": "",
            "eo_text": "",
            "fr_text": "Génération du sable de l'océan",
            "he_text": "",
            "ja_text": "",
            "pt_text": "Gerando areia do oceano",
            "ru_text": "Создание песка в океане",
            "es_text": "",
            "sv_text": "",
            "ko_text": "",
            "th_text": "",
            "other1_text": "",
            "other2_text": "",
            "id_text":"",
            "cht_text":"",
            "vi_text":"",
            "扩展字段": "{\"other_texts\": {\"cs\": \"Generování mořského písku\", \"pl\": \"Generowanie piasku morskiego\", \"hu\": \"Tengeri homok elhelyezése\", \"uk\": \"Генерація океанського піску\", \"tr\": \"Okyanus kumu üretme\"}}",
            "时间": "20240316",
            "zh_text_md5": "b656579704c6ca5acc29f2aa36159ce2"
        }
    ],
    "扩展字段": "{\"other_texts_iso_map\": {\"cs\": \"捷克语\", \"pl\": \"波兰语\", \"hu\": \"匈牙利语\", \"uk\": \"乌克兰语\", \"tr\": \"土耳其语\"}}",
    "时间": "20240316"
}