这个评测的参考价值
liuyajun52 opened this issue · 2 comments
liuyajun52 commented
作为一个评测,即不公布评测方法,也不公布评测数据,就直接扔上来一个表格,而且还在某厂商发布第二天发布,简直是Shame,根本无任何参考价值。毕竟任何人,都可以花几分钟就可以在做个表格扔到GitHub上。这种评测我只信双盲测试:
- 在所有用户的提示词中随机选取测试提示词集合,以此减少提示词集合的片面性
- 将同一个提示器集合喂给待测试AI,记录对话数据
- 将对话数据,随机发放给人类用户打分(用户不知道是哪个AI的回答)
- 使用统计学方法统计用户打分,给出评测报告
So0ni commented
而且人类得分这么高,即使真的做了评测,也非常怀疑评测的公平性。从实际体验来看,至少GPT4的能力是在人类平均水平之上的。
brightmart commented
安排