data/nationalism
目录下是民族主义的数据
dev.txt
表示开发集数据,trian.txt
表示训练集数据,test.csv
表示测试集数据
其中,开发集和测试集数据,格式是 标签+文本(标签为1,表示正样本,具有民族主义情绪)
测试集数据,格式是 文本id+文本
data/populism
目录下是民粹主义的数据,数据格式与上面的民族主义一致
民族主义
数据集 | 正样本 | 负样本 | 总量 |
---|---|---|---|
trian | 30458 | 31940 | 62398 |
dev | 7541 | 8059 | 15600 |
test | - | - | 19471 |
民粹主义
数据集 | 正样本 | 负样本 | 总量 |
---|---|---|---|
trian | 26457 | 31942 | 58399 |
dev | 6543 | 8057 | 14600 |
test | - | - | 19471 |
如果本数据集和代码应用到了你工作中,请引用下面这篇文章:
《民族主义和民粹主义极端情绪的表达:基于新浪微博上转基因议题的研究》