thunlp/EntityDuetNeuralRanking

train_ent_des_expansion文件格式问题

Closed this issue · 1 comments

您好,您对于train_ent_des_expansion文件的格式描述是这样子的:
query ids \t document ids \t qurey entities \t document entities
但是我下载了文件之后发现数据集中的数据是这样子的(列举一条):
11347,11347,8 11347,11347,5057,8 11347,11347,8,407,435,917,56,562,56,1927,56,5058,56,2262,56,59,90,155 -0.195402 蹦蹦网 蹦,蹦 蹦蹦网,购物,电影,信息平台

所以看不懂您写的什么意思?是不是可以这样理解:
11347,11347,8 是query words ids
1347,11347,5057,8 是负样本 document words ids
11347,11347,8,407,435,917,56,562,56,1927,56,5058,56,2262,56,59,90,155 是正样本 document words ids
-0.195402是文档得分?这个得分怎么来的您也没有说明
蹦蹦网 是query中的实体
蹦,蹦 是负样本文档中的实体
蹦蹦网,购物,电影,信息平台 是正样本文档中的实体

我可以不可以是这样子的数据格式

这个document ids 包含两个部分,所以得分正的话是前面positive,后面是negative,反之依然。另外,此部分数据所有处理方式以及词向量初始化与KNRM和CovKNRM的处理方式,这个我们在论文中已经说明,麻烦仔细阅读KNRM论文。针对具体数据来源,这部分数据为Sogou搜索日志,如果使用以及细节请参考并引用Sogou-QCL: A New Dataset with Click Relevance Label并参考其中细节,我们不会对数据集进行说明。