大規模言語モデルの法廷通訳への導入可能性の検証

データセット

dataset ディレクトリに以下の3つのデータセットが格納されています。

  • handbook.tsv: 「法廷通訳ハンドブック」の日本語原文とその対訳(**語、英語、ベトナム語)。
  • handbook_filtered.tsv: handbook.tsv から簡単な文や重複する文を除いたもの。実験ではこちらを使用。
  • question.tsv: GPT-4oを用いて生成した法廷で使われる疑問文のデータセット(日本語のみ)。

handbook.tsv および handbook_filtered.tsv の出典は以下の三冊です(データセット公開許諾済み)。

・法廷通訳ハンドブック実践編 **語   (出版: 法曹会)
・法廷通訳ハンドブック実践編 英語    (出版: 法曹会)
・法廷通訳ハンドブック実践編 ベトナム語 (出版: 法曹会)

翻訳文と評価用データ

output/translation 以下にあります。

末尾がシステム名(azure, gpt, llama)になっているものはそのシステムによる翻訳文です。
末尾がevaluation_set_{language}となっているものは評価用データで、各システムの翻訳文(および法廷通訳ハンドブックの対訳文)をランダムにシャッフルして提示しています。 評価時には mapping 列を隠して提示しました。

評価結果

output/evaluation に以下の評価指標における評価結果が格納されています(太字は言語処理学会の予稿で取り上げたもの)。

  • BERTScore
  • BLEU
  • COMET
  • COMET (Reference free)
  • 人手評価
  • LLM-as-a-Judge

末尾が remapped となっているものが各翻訳システムごとの評価結果です。

論文情報

山岸 聖子, 神藤 駿介, 宮尾 祐介. "大規模言語モデルの法廷通訳への導入可能性の検証". 言語処理学会2025. 論文PDF.