MangoFF opened this issue 9 months ago · 1 comments
为什么Deepseek-Math-7B-rl 已经到了88.2%,但是DeepSeek-LLM-67B Chat只有84%?67B的综合模型,在数学能力上比7B的Math专有模型要差。
提问仅代表个人观点