LLM_data_eval 大语言模型的测试评估数据集 数据结构 {'quest':' ','context':' ','prompt':' ','option':' ','label':' ','answer':' ','other':' '} 基础能力 平均分 语义理解 闲聊 对话 角色扮演 知识与百科 生成与创作 逻辑与推理 代码 计算 安全 专业能力 可以通过高考数据进行测试评估 中文特性 字形和拼音 字义理解 句法分析 文学 诗词 成语 歇后语和谚语 方言 对联 古文