-
SWE-Lancer:OpenAI开源的大模型代码能力测试基准
SWE-Lancer 是 OpenAI 开源的一款 大模型能力评估基准,旨在测试大语言模型在实际软件开发任务中的表现。与传统的测试基准不同,SWE-Lancer采用了端到端测试方法,通过模拟真实的开发流程,评估模型在复杂任务中的综合能力。 -
AGI-Eval:AI大模型评测社区
AG1-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态以“评测助力,让AI成为人类更好的伙伴"为使命。专门设计用于评估基础模型在人类认知和问题解决相关任务中的一般能力。AGI-Eval通过这些考试来评估模型的性能,与人类决策和认知能力直接相关。衡量模型在人类认知能力方面的表现,有助于了解在现…