/JGECM

BCCWJから複数誤りタイプをもつ日本語文法誤り訂正のための評価用コーパス(JGECM)を構築するためのリポジトリ

Primary LanguagePython

JGECM

概要

BCCWJから複数誤りタイプをもつ日本語文法誤り訂正のための評価用コーパス(An Evaluation Corpus for Japanese Grammatical Error Correction with Multiple Error Types: JGECM)を構築するためのリポジトリ

実行環境

Python >= 3.6 Beautiful Soup4 >= 4.1

特徴

提案された日本語GECモデルを複数の誤りタイプごとに評価することが可能なデータセットです.

ディレクトリ構成

JGECM_org.csv : JGECMデータの本体です.各列の説明はデータの説明部分を参照してください. buildJGECM.py : BCCWJデータを用いて文法的に誤りを含む文と文法的に正しい文の対データを作成するためのスクリプトです.実行手順については実行手順部分を参照してください.また,出力されるデータの形式についてはデータの説明部分を参照してください.

データの説明

本データに含まれる誤り種類は下記の通りです.

  • 削除(助詞)
  • 挿入(助詞)
  • 置換(助詞)
  • 語彙選択
  • 表記
  • 動詞
  • 削除(助詞・動詞以外)
  • 挿入(助詞・動詞以外)

JGECM_org.csv

列名 説明
filename 構築の元となったBCCWJデータのファイル名
sen_id 当該ファイルにおける誤り作成元文を示すID
goku 挿入している文字列(空白の場合は削除していることを表します)
leftpos 誤り発生箇所の開始位置を左から数えた場合の場所
rightpos 誤り発生箇所の終了位置を右から数えた場合の場所
type 誤り種類

作成される並列データ

列名 説明
tgt 文法的に正しい文(BCCWJデータから当該文を抜き出したデータ)
src 文法的に誤りを含む文(BCCWJの文に)
type 誤り種類

出力形式の例 出力されるcsvデータの形式は以下のとおりです.

デフォルト設定での出力

tgt,src,type
私は猫が大好きです。,私猫が大好きです。,削除(助詞)
私は猫が大好きです。,私はを猫が大好きです。,挿入(助詞)

--sep 1とした場合の出力

tgt,src,type
私は猫が大好きです。,私[]猫が大好きです。,削除(助詞)
私は猫が大好きです。,私は[を]猫が大好きです。,挿入(助詞)

並列データ作成の実行手順

実行例 デフォルトでの実行

python buildJGECM.py ~/BCCWJ/Disk1/

オプションの指定

python buildJGECM.py ~/BCCWJ/Disk1/ --output output.csv --sep 1

第1引数にはBCCWJ-DVD版(Version 1.1),Disk1のC-XMLディレクトリpathを指定してください.

オプション --output 出力先を指定します.指定しない場合には,JGECM.csvというファイル名で保存されます. --sep 誤り挿入箇所を[, ]で囲む場合には1を指定します.省略時には囲まれません.

参考文献

Kikuo Maekawa, Makoto Yamazaki, Toshinobu Ogiso,Takehiko Maruyama, Hideki Ogura, Wakako Kashino,Hanae Koiso, Masaya Yamaguchi, Makiro Tanaka, andYasuharu Den. ``Balanced corpus of contemporary written Japanese". Language resources and evaluation, Vol. 48,No. 2, pp. 345–371, 2014.

Author

Hideyoshi KATO https://www.hideyoshikato.com/

Licence

本レポジトリで公開しているデータ(JGECM_org.csv)およびスクリプト(buildJGECM.py) は,「クリエイティブ・コモンズ 表示 4.0 国際 パブリック・ライセンス(CC BY 4.0)」とします. ただし,本スクリプトによりBCCWJを用いて作成されたデータについては,BCCWJの利用規約に従ってください.BCCWJデータを利用するためには,国立国語研究所との利用契約が必要です.