这个评测的参考价值

Question

liuyajun52 opened this issue 2 years ago · 2 comments

作为一个评测，即不公布评测方法，也不公布评测数据，就直接扔上来一个表格，而且还在某厂商发布第二天发布，简直是Shame，根本无任何参考价值。毕竟任何人，都可以花几分钟就可以在做个表格扔到GitHub上。这种评测我只信双盲测试：

安排

Answer 1 · 2023-05-12T07:08:23.000Z

而且人类得分这么高，即使真的做了评测，也非常怀疑评测的公平性。从实际体验来看，至少GPT4的能力是在人类平均水平之上的。