(资料图片仅供参考)
三大评测基准综合评估
上万道考题“统考”主流大模型
除了文心大模型3.5,评测的模型还有ChatGPT、GPT-4、ChatGLM、LLaMa系列大模型。评测可以看出大模型在能力上的优劣,同时对模型的迭代发展也有着很强的指导作用。
评测结果:
文心大模型3.5中文能力超GPT-4,综合能力超ChatGPT
在AGIEval、C-Eval等中英文权威测试集和MMLU英文权威测试集中,国产文心大模型3.5取得了超过ChatGPT和LLaMa、ChatGLM等其他大模型的分数表现,在中文评测项中超越了GPT-4。
热门