Devin：Cognition推出的全自主AI软件工程师智能体

Devin是什么？

Devin 是由AI初创公司 Cognition 开发的全球首个全自主 AI 软件工程师，具备自主学习新技术、端到端构建和部署应用、自主查找和修复代码 Bug、训练和微调 AI 模型的能力。在 SWE-bench 基准测试中，Devin 展现出超越其他 AI 模型的性能，正确解决了实际编程问题。

官方介绍视频：

Devin的主要功能

长期推理与规划：能够规划和执行需要数千个决策的复杂工程任务，记住每一步的相关上下文，随时间学习，并修复错误。
使用开发者工具：配备了包括 shell、代码编辑器和浏览器在内的常见开发者工具，在一个沙盒化计算环境中工作。
主动协作：能够实时报告进度，接受反馈，并根据需要与用户共同进行设计选择。
学习新技术：通过阅读博客文章等资料，学习如何使用不熟悉的技术。
端到端应用构建和部署：能够从头开始构建并部署应用程序，如模拟生命游戏的交互式网站，并将其部署到 Netlify。
自主查找和修复代码库中的 Bug：帮助维护和调试开源竞赛编程书籍。
训练和微调 AI 模型：设置大型语言模型的微调，只需提供一个 GitHub 研究仓库的链接。
处理开源仓库的问题：只需提供一个 GitHub 问题的链接，Devin 就能完成所有设置和上下文收集工作。
对成熟生产仓库做出贡献：作为 SWE-bench 基准测试的一部分，Devin 解决了 sympy Python 代数系统中的对数计算错误。
执行实际工作：在 Upwork 上完成实际的编程工作，编写和调试运行计算机视觉模型的代码，并在最后编译报告。

Devin的评测结果

Devin 在 SWE-bench 基准测试中的表现非常出色，这是一个挑战性的基准测试，要求参与者解决开源项目（如 Django 和 scikit-learn）中的实际 GitHub 问题。Devin 正确解决了 13.86% 的问题，这一比例远远超过了之前的技术水平，后者只能解决 1.96% 的问题。即使在只给定要编辑的确切文件的情况下，以往的最佳模型也只能解决 4.80% 的问题。Devin 在评估时是独立完成的，而其他模型则得到了辅助（即模型被告知需要编辑哪些文件）。这一结果显示了 Devin 在理解和解决实际编程问题方面的巨大优势。

如何使用Devin？

Devin已开放使用，Devin官网地址：https://devin.ai/

Devin：Cognition推出的全自主AI软件工程师智能体

Devin是什么？

Devin的主要功能

Devin的评测结果

如何使用Devin？

豆包 - 字节跳动旗下免费AI智能助手

Updream - B站推出的专业级 AI 视频创作平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

TRAE编程 - 字节跳动推出的AI代码助手

笔灵AI论文写作 - 专业AI论文写作平台

灵客AI - AI多模型聚合创作平台

CatPaw - 美团推出的全场景 AI Agent 平台

纳米Work - 360推出的企业级AI智能体工作平台

千问办公 - 阿里推出的一站式 AI Agent 办公平台，把任务做完并交付产物

妙呀 - 阿里推出的潮玩创作者 AI 设计平台

Claude Opus 5 - Anthropic 推出的新一代 Opus 旗舰模型

Devin是什么？

Devin的主要功能

Devin的评测结果

如何使用Devin？

智谱清流 - 智谱推出的企业级AI智能体平台

Agent云平台-汇智智能推出的集成多种智能体工具的云服务平台

Codex - OpenAI 推出的 AI 编程智能体与代码开发助手

通义灵码AI程序员：阿里云推出的AI编程辅助智能体

豆包 - 字节跳动旗下免费AI智能助手

Updream - B站推出的专业级 AI 视频创作平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

TRAE编程 - 字节跳动推出的AI代码助手

笔灵AI论文写作 - 专业AI论文写作平台

灵客AI - AI多模型聚合创作平台

CatPaw - 美团推出的全场景 AI Agent 平台

纳米Work - 360推出的企业级AI智能体工作平台

千问办公 - 阿里推出的一站式 AI Agent 办公平台，把任务做完并交付产物

妙呀 - 阿里推出的潮玩创作者 AI 设计平台

Claude Opus 5 - Anthropic 推出的新一代 Opus 旗舰模型