qhjqhj00/SIGIR2021-Pchatbot

PchatbotL和PchatbotW 相关

520jefferson opened this issue · 3 comments

请问这两份数据是Dialog-Preprocessor/preprocess下的process.py处理前的还是处理后的?

我看数据格式是:Post \t Post_user_id \t Post_timestamp \t Response \t Response_user_id \t Response_timestamp \n
response混杂了数字开头,例如:
求助 : 在 广州市 有 那些 算 特殊 工种 ? 有没有 特殊 工种 的 青单 ? 谢谢 各位 的 帮助 ! 我 已经 向 广州市 劳动部门 咨询 过 了 , 但 他们 推来推去 , 到 最后 我 不 知道 问 谁 , 所以 我 向 你们 求助 , 我 想 问 一下 电焊工 、 气 焊工 是否 还要 再 分细 吗 ? 感谢 ! 3137717 193632630锅炉工 是 特殊 工种 , 由 劳动局 锅炉 检验所 发证 才能 上岗 。 15 193643250

买 了 车票 以后 还 需买 保险 吗 ? 车票 里面 到底 含不含 保险 呢 ? 在 售票员 给 了 车票 和 保险 后 , 我 有权 不要 这个 保险 吗 ? 526196 193807170 1 买 不 买 保险 是 你 的 自愿 15 193807710

这两条都有个1开头,作为response的第一个字符。

是在处理之后的数据,这个1作为response的第一个字符应该只是因为原数据混杂有1作为它的开头,并非我们处理所致。