haonan-li/CMMLU

CMMLU: Measuring massive multitask language understanding in Chinese

Python

Issues

希望增加对于Qwen2的测试
#69 opened 3 months ago by liduang
1
关于测评生成的结果
#70 opened 3 months ago by hmsss
1
DiMind结果验证申请
#72 opened 3 months ago by lingbaishun
0
希望增加对于Grok-1的测试
#63 opened 5 months ago by XYCode-Kerman
1
数据集怎么回事
#62 opened 7 months ago by houxiang676
1
请问ChatGLM3有测试结果吗
#57 opened 7 months ago by ScienGU
1
支持yi-34b-chat吗？
#55 opened 9 months ago by xxm1668
1
如果用评测集进行训练，是不是可以拿满分，如何防止作弊？
#48 opened 10 months ago by xealml
1
外部API接口的输入/输出格式和邮箱地址
#46 opened a year ago by jru001
6
每个 csv 文件具体属于哪个 category
#40 opened a year ago by rattlesnakey
1
category以及总体average得分的计算逻辑
#39 opened a year ago by XinyuGuan01
2
cmmlu测试集结果更新
#30 opened a year ago by leoymr
3
SyntaxError: unmatched ')'
#33 opened a year ago by bwin90
1
容易卡主，咋回事
#31 opened a year ago by xxm1668
3
请问一下，如果想提交模型结果，更新到榜单上，需要怎么操作？
#26 opened a year ago by chuxin1457
1
CMMLU测试
#27 opened a year ago by huayicong23
3
支持llama2吗？
#24 opened a year ago by xxm1668
1
请问“STEM|人文学科|社会科学|其他|**特定主题”这几个类别和 data/test/ 下的67个文件对应关系是什么
#23 opened a year ago by TexasRangers86
1
请问一下，MILM的测试是如何进行的？
#19 opened a year ago by ztxz16
1
Support Qwen-7b
#16 opened a year ago by mMrBun
2
刚开始学习ai，想问问文档的 Five-shot 是 few-shot 吗？
#18 opened a year ago by KarnaughK
1
ChatGLM2-6b模型用eval精度比eval_chat低，正常吗？
#14 opened a year ago by ztxz16
1
提示-评估中的链接失效
#13 opened a year ago by cobraheleah
1
AttributeError: 'NoneType' object has no attribute 'replace'
#12 opened a year ago by mMrBun
3
Baichuan-13B-Chat
#9 opened a year ago by xianghuisun
1
[BUG maybe in few-shot setting]计算模型选择的答案时，对于很多模型代码里实际上比较的是['_A', '_B', '_C', '_D']这四个token的概率，而非['A', 'B', 'C', 'D']的概率
#11 opened a year ago by Heepo
1
[Feature] Support CMMLU in OpenCompass
#10 opened a year ago by tonysy
1
ChatGLM2-6B使用默认参数跑，相比于ChatGLM-6B速度慢5倍以上，不知道是什么原因
#5 opened a year ago by xujunrt
3
get_results出来的分数有一定随机性
#8 opened a year ago by ztxz16
2
【数据错误】huggingface 上的数据加载有一个错误
#7 opened a year ago by LiuLinyun
1
【baichuan-13】可否对比下百川13B的模型，近日发布的
#4 opened a year ago by LouisHeck
1
logo扇面上没有“world history”世界历史这一主题
#3 opened a year ago by Reeleon
1
categories.py中name_en2zh、subcategories不是字典升序的
#2 opened a year ago by Reeleon
1
是否考虑使用四个选项的概率大小来评估模型？
#1 opened a year ago by DaoD
2