感想付きニュース雑談対話コーパス

統計情報

  • V1: 極端に不適切な発話をするワーカーを除いた一般のワーカーに依頼して収集
  • V2: V1 の収集で教示に適切に対応したワーカーのみに依頼を絞り収集
  • V3: 論文投稿後にV2と同条件で収集
対話数 発話数 一対話あたりの
平均発話数
一対話で提示したツイート数 一度以上ツイートが
使われた対話数
一対話あたりの
使用されたツイート数
(使用数0ものを除く)
V1 202 2293 11.4 12.8 140 2.0
V2 223 2496 11.2 13.0 206 2.9
V3 621 6924 11.1 12.3 599 3.1
V1+V2+V3 1047 11713 11.2 12.5 945 2.9

概要

本コーパスは日々の話題についてユーザと雑談する対話システムの実現を目指して構築したものである. 本コーパスの特徴は,話者の雑談に加えて,雑談の話題となるニュースと,それに対するツイートがセットになっている点にある. 本コーパスの使用により、対話システムの行う雑談に人々の感想を含めることができると期待される. 本コーパスはWizard of Oz法で収集した対話が収録されており、本対話コーパス構築に使用した対話収集システムはhttps://github.com/fukanarita/newschat-with-impression/tree/main/chat-server に公開している

データ形式

データは以下のようなjsonl形式となっている。

{
 "news_url": 対話に使用したニュースのURL,
 "tweet_choices": 対話の実施時にシステム役に提示したツイート,
 "dialog_id": 対話ID, 
 "dialog": [
    {
      "speaker": 発話者("S": システム役, "U": ユーザ役),
      "used_tweet": 発話に組み込まれたツイート,
      "utterance": 発話内容
    },
    ...
  ]
}

具体例

{
  "news_url": "https://www.asahi.com/articles/ASQBL55HHQBLPLZB00D.html",
  "tweet_choices": [
    "1582633799958990848",
    "1582608743459454976",
    "1582606477641908224",
    "1582601802070994945",
    "1582601761889849346",
    "1582592538921164800",
    "1582580728427995136",
    "1582576289470304256",
    "1582570946384498688",
    "1582564543439335424",
    "1582562010562461697",
    "1582558007871041536",
    "1582555061082763265"
  ],
  "dialog_id": "2023010701610",
  "dialog": [
    {
      "speaker": "S",
      "used_tweet": [],
      "utterance": "保存修理が続く国宝の大徳寺方丈(京都市北区)の屋根裏から、約400年前のノミが見つかったそうです。"
    },
    {
      "speaker": "U",
      "utterance": "400年前のノミですか?それは素晴らしい発見ですね。"
    },
    {
      "speaker": "S",
      "used_tweet": [
        "1582608743459454976"
      ],
      "utterance": "職人にとって高価で大切なノミを、なぜ、この場所に置き忘れたんでしょううね。"
    },
    {
      "speaker": "U",
      "utterance": "確かに。おっちょこちょいな職人さんだったのかあるいは何か意味があるのでしょうか?"
    },
    {
      "speaker": "S",
      "used_tweet": [
        "1582576289470304256",
        "1582555061082763265"
      ],
      "utterance": "大工さんが意図的にノミを置き忘れた可能性もありますね。"
    },
    {
      "speaker": "U",
      "utterance": "仰るように職人さんにとって相当大切なものだと思いますので何か意味があるのかもしれないと勘ぐってしまいました。シンプルに置き忘れの可能性もありますよね。"
    },
    {
      "speaker": "S",
      "used_tweet": [],
      "utterance": "保存修理作業を続ける京都府の現場責任者・竹下弘展さん(46)は「発見によって、当時の職人がこのノミを使っている様子がまざまざとイメージできた。解体によって、手仕事の痕跡と出会えるのが、この仕事の醍醐(だいご)味です」と話しているそうです。"
    },
    {
      "speaker": "U",
      "utterance": "ノミをみるだけで当時の様子をイメージできるなんて流石職人さんですね。"
    },
    {
      "speaker": "S",
      "used_tweet": [],
      "utterance": "素敵な仕事ですよね。"
    },
    {
      "speaker": "U",
      "utterance": "本当に素晴らしいと思います。"
    },
    {
      "speaker": "S",
      "used_tweet": [
        "1582580728427995136"
      ],
      "utterance": "こういう話は好きです。\n"
    }
  ]
}