JASMINE

患者の闘病ブログの記事から、医療ドメインにおける日本語のテキスト平易化パラレルコーパスを構築しました。 これは、患者が記述した文における病名や症状などの表現を医療用語に置き換えることで構築された文単位のパラレルコーパスです。 1,425件を公開します。 医療テキスト平易化モデルの評価用データとして使用してください。

使用を希望される方はこちらのGoogleフォーム(氏名・所属・メールアドレス・JASMINEコーパスの使用目的の入力をお願いします)からお申し込みください。

ファイル

難解文と平易文がタブ区切りでペアになっています。 1列目が難解文、2列目が平易文です。

難解文 平易文
そして25日夜から微熱が4日間続いた。 そして25日の夜から微熱が4日続きました。
食欲不振であった。 食欲もなかったです。

文献情報

堀口 航輝, 梶原 智之, 荒瀬 由紀, 二宮 崇.
日本語医療テキスト平易化の評価用データセットの構築.
言語処理学会第30回年次大会, p255-259, 2024. [PDF]

公開ライセンス

Creative Commons Attribution 4.0 International License (CC BY 4.0)