全部标签

模型评测基准

SWE-Lancer：OpenAI开源的大模型代码能力测试基准

SWE-Lancer 是 OpenAI 开源的一款大模型能力评估基准，旨在测试大语言模型在实际软件开发任务中的表现。与传统的测试基准不同，SWE-Lancer采用了端到端测试方法，通过模拟真实的开发流程，评估模型在复杂任务中的综合能力。
AI模型评测
- 3.5k
- 0
AIHub25年2月19日