人工标注eprstmt 得分86.59，数据集质量堪忧。。

Question

lindabigwheel opened this issue 3 years ago · 3 comments

eprstmt分析badcase，发现数据集质量不靠谱，于是众包标注了下test数据集，很多是模棱两可，提交 eprstmt 得分86.59，搞笑了。。

Human performance 说明的不是任务难度、或算法天花板，而是说明数据集质量不行啊，刷这个榜没太大意义。。

Answer 1 · 2022-03-08T12:27:04.000Z

你好，可以方便提供您这边标注的语料结果给我们么？我们可以参考下具体看下哪些case比较模棱两可～

Answer 2 · 2022-03-09T07:26:54.000Z

感谢反馈问题。我们这边测试出human performance的准确率是90%，看上去当前最好的模型解决这个人类的效果。

Answer 3 · 2022-03-09T08:04:33.000Z