感谢徐亮老师团队的工作~关于评测细节有一些疑问咨询下

Question

感谢徐亮老师团队的工作~关于评测细节有一些疑问咨询下

Opened this issue 2 years ago · 5 comments

1）我看到基础能力评测中人类各项分数都接近100分，是不是题目出的太少太简单？
2) 项目上说一共三个人用投票机制，作为人类的分数，请问是什么水平的人类？另外三个人是否太少~
3）尤其是代码能力方面以我自己使用的体验 gpt-4 写代码能力很强而且属于全栈，各种语言都会一些，这个应该没人能达到吧。但是这个评测中人类、gpt-4、gpt-3.5-turbo分数一样，是否题目的区分度还不够

Answer 1 · 2023-05-09T07:47:01.000Z

同文+1，具体的题目数量有多少呢

Answer 2 · 2023-05-09T08:18:19.000Z

期待把每一期的题目公布出来，大家一起共创。

Answer 3 · 2023-05-09T10:28:12.000Z

放出来厂商就可以作弊了 lol

Answer 4 · 2023-05-09T14:39:40.000Z

看到人类得分那么高，就知道这个项目不靠谱。

Answer 5 · 2023-05-15T02:37:37.000Z

1）我看到基础能力评测中人类各项分数都接近100分，是不是题目出的太少太简单？ 2) 项目上说一共三个人用投票机制，作为人类的分数，请问是什么水平的人类？另外三个人是否太少~ 3）尤其是代码能力方面以我自己使用的体验 gpt-4 写代码能力很强而且属于全栈，各种语言都会一些，这个应该没人能达到吧。但是这个评测中人类、gpt-4、gpt-3.5-turbo分数一样，是否题目的区分度还不够

1）当前报告的分数是采用开卷形式做题目的分数，所以结果比较高。我们也计划报告一下闭卷形式的分数。
2）人类的水平是本科生、研究生的水平
3）代码生成方面gpt-4还是很强的。只是我们的题目是客观题，而不是纯生成题，所以gpt-4强大的生成能力，可能没有那么明显。