train_ent_des_expansion文件格式问题

Question

train_ent_des_expansion文件格式问题

Closed this issue 3 years ago · 1 comments

您好，您对于train_ent_des_expansion文件的格式描述是这样子的：
query ids \t document ids \t qurey entities \t document entities
但是我下载了文件之后发现数据集中的数据是这样子的（列举一条）：
11347,11347,8 11347,11347,5057,8 11347,11347,8,407,435,917,56,562,56,1927,56,5058,56,2262,56,59,90,155 -0.195402 蹦蹦网蹦,蹦蹦蹦网,购物,电影,信息平台

所以看不懂您写的什么意思？是不是可以这样理解：
11347,11347,8 是query words ids
1347,11347,5057,8 是负样本 document words ids
11347,11347,8,407,435,917,56,562,56,1927,56,5058,56,2262,56,59,90,155 是正样本 document words ids
-0.195402是文档得分？这个得分怎么来的您也没有说明
蹦蹦网是query中的实体
蹦,蹦是负样本文档中的实体
蹦蹦网,购物,电影,信息平台是正样本文档中的实体

我可以不可以是这样子的数据格式

Answer 1 · 2021-01-22T12:58:27.000Z

这个document ids 包含两个部分，所以得分正的话是前面positive，后面是negative，反之依然。另外，此部分数据所有处理方式以及词向量初始化与KNRM和CovKNRM的处理方式，这个我们在论文中已经说明，麻烦仔细阅读KNRM论文。针对具体数据来源，这部分数据为Sogou搜索日志，如果使用以及细节请参考并引用Sogou-QCL: A New Dataset with Click Relevance Label并参考其中细节，我们不会对数据集进行说明。