CLUEbenchmark/SuperCLUE

测评时如何与标准答案进行匹配

Opened this issue · 0 comments

hi, 根据测评标准是根据题目让模型进行预测,并与标准答案进行匹配得到的准确率得分,请问是如何与标准答案进行匹配的?这个准确率得分有具体的计算标准吗?比如是否会考虑生成结果的长度、内容独特性、相似性之类的指标?感谢回答