感谢徐亮老师团队的工作~关于评测细节 有一些疑问咨询下
Opened this issue · 5 comments
lrs1353281004 commented
1)我看到基础能力评测中人类各项分数都接近100分,是不是题目出的太少太简单?
2) 项目上说一共三个人用投票机制,作为人类的分数,请问是什么水平的人类?另外三个人是否太少~
3)尤其是代码能力方面 以我自己使用的体验 gpt-4 写代码能力很强 而且属于全栈 ,各种语言都会一些,这个应该没人能达到吧。但是这个评测中人类、gpt-4、gpt-3.5-turbo分数一样,是否题目的区分度还不够
littlepan0413 commented
同文+1,具体的题目数量有多少呢
qiangmzsx commented
期待把每一期的题目公布出来,大家一起共创。
mali-nuist commented
放出来厂商就可以作弊了 lol
stenlylee commented
看到人类得分那么高,就知道这个项目不靠谱。
brightmart commented
1)我看到基础能力评测中人类各项分数都接近100分,是不是题目出的太少太简单? 2) 项目上说一共三个人用投票机制,作为人类的分数,请问是什么水平的人类?另外三个人是否太少~ 3)尤其是代码能力方面 以我自己使用的体验 gpt-4 写代码能力很强 而且属于全栈 ,各种语言都会一些,这个应该没人能达到吧。但是这个评测中人类、gpt-4、gpt-3.5-turbo分数一样,是否题目的区分度还不够
1)当前报告的分数是采用开卷形式做题目的分数,所以结果比较高。我们也计划报告一下闭卷形式的分数。
2)人类的水平是本科生、研究生的水平
3)代码生成方面gpt-4还是很强的。只是我们的题目是客观题,而不是纯生成题,所以gpt-4强大的生成能力,可能没有那么明显。