写点什么

90 后华人团队真来砸程序员饭碗了?推出全球首个 AI 超级工程师:拥有全栈技能,一个指令就能完成整个开发过程

  • 2024-03-13
    北京
  • 本文字数:3906 字

    阅读完需:约 13 分钟

大小:1.87M时长:10:55
90后华人团队真来砸程序员饭碗了?推出全球首个AI超级工程师:拥有全栈技能,一个指令就能完成整个开发过程

作者 | Tina、冬梅、核子可乐

 

今天,一家名为 Cognition AI 的初创新企业发布了他们的最新项目:首个 AI 软件工程师 Devin。

 

在他们的宣传中,Devin 能够将用户的提示词直接转化为网站或者电子游戏。它能自主下载代码、搭建环境、执行代码、修复 bug 并完成任务,而且完成这些端到端的任务只需一个指令。

 


在 SWE-bench 基准测试中,Devin 能够解决 13.86%的问题,而 GPT-4 仅能处理 1.74%的问题。更重要的是,Devin 无需人工干预,而 GPT-4 则需要人工提示指定处理文件。

 

Devin 一发布,便引爆了整个科技圈。但在此之前绝大多数人可能根本没听过这家公司,毕竟他们两个月前,才真正在公众面前亮相。然而这家仅有的 10 名员工的公司,从 Peter Thiel 的风险投资公司 Founders Fund 及其他资方(包括前 Twitter 高管 Elad Gil)处成功筹集到 2100 万美元。而他们所看中的,正是 Cognition AI 的创始团队及其主要成果 Devin。

 

Devin 是一款类似于 Copilot 的软件开发助手,但不同于由 GitHub、微软和 OpenAI 联手推动的后者,Devin 身上更有下一代 AI 编程方案的气质。Devin 不仅能够提供编码建议并自动完成部分任务,甚至可以独自承担并完成整个软件开发流程。其使用方式也相当简单,只需提交一项任务——比如创建一个网站,展示悉尼市所有意大利餐厅的地图——该软件就会执行搜索来查找餐厅、获取相应地址与联系信息,而后构建并发布显示信息的站点。在运行期间,Devin 还会列出它正在执行的所有任务,甚至在编写代码时持续测试,自行查找并修复 bug。

 

Devin 能做什么?

 

那么,如此强大的 Devin 都能做些什么?

 

总体而言,Devin 可以规划和执行需要数千个决策的复杂工程任务。 Devin 可以回忆起每一步的相关背景,随着时间的推移学习并修复错误。

 

研发团队还为 Devin 配备了常见的开发人员工具,包括沙盒计算环境中的 shell、代码编辑器和浏览器,以及人类开发者完成工作时所需的一切其他工具。

 

最后,研发团队还赋予了 Devin 与用户积极协作的能力。 Devin 能够实时报告协作进展,接受反馈,并根据需要与用户一起进行设计选择。

 

下列是 Devin 可以执行的操作示例:

 

  • Devin 可以学习如何使用不熟悉的技术。

 

下列视频演示了 Devin 在 Modal 上运行 ControlNet,为 Sara 生成带有隐藏消息的图像。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    • Devin 可以端到端地构建和部署应用程序。

     

    Devin 制作了一个模拟生命游戏的互动网站,它逐步添加用户请求的功能,然后将应用程序部署到 Netlify。


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      • Devin 可以自主查找并修复代码库中的错误。

       

      Devin 帮助 Andrew 维护和调试他的开源相关编程书籍。

       

      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        • Devin 可以解决开源存储库中的错误和功能请求。

         

        只需提供 GitHub 问题的链接,Devin 即可完成所需的所有设置和上下文收集。

         

        00:00 / 00:00
          1.0x
          • 3.0x
          • 2.5x
          • 2.0x
          • 1.5x
          • 1.25x
          • 1.0x
          • 0.75x
          • 0.5x
          网页全屏
          全屏
          00:00


          虽然 Devin 能够出色地完成上述工作,但想要更清楚地了解其性能,研发团队在 SWE-bench 上评估了 Devin ,这是一个具有挑战性的基准测试,要求 Agents 能够解决 Django 和 scikit-learn 这类开源项目中真实存在的 GitHub issue 问题。

           

          Devin 能够完全解决 13.86%的问题,远远超过了之前最先进的 1.96%。即使给出了需要编辑的确切的文件,之前最优秀的模型也只能解决 4.80%的问题。

           


          Devin 的评估是在数据集的随机 25%子集上进行的。Devin 是没有辅助的,而其他所有模型都是在辅助下进行的(意味着要告诉模型哪些文件需要编辑)。

           

          大家怎么看?

           

          前特斯拉人工智能总监,OpenAI 的创始团队成员 Andrej Karpathy 认为这种自动化软件工程有点类似于自动驾驶技术。AI 做得越来越多,人类做得越来越少,但人类仍需提供监督。在软件工程中,进程正在形成类似下面的趋势:

           

          首先,人类手动编写代码

          然后,GitHub Copilot 自动完成几行代码

          接着,ChatGPT 编写代码块

          最终,代码差异会变得越来越大

           


          Karpathy 强调,在 AI 部分之外,还有很多工作需要人类完成,尤其是在 UI/UX 方面。人类如何提供监督?他们关注的是什么?他们如何引导 AI 走向不同的路径?他们如何调试出错的地方?我们很可能会不得不大幅改变代码编辑器。

           

          无论如何,软件工程即将发生重大变化。它将看起来更像是在监督自动化,同时提供高级命令、想法或进展策略。

           

          OpenAI 员工 Jimmy Apples 对 Devin 的出现感到震惊,他表示:“原以为这项技术会再有个两三年才能出现,没想到到来的如此之快,现在才 3 月。”

           


          Devin 的出现让更多人意识到,没有什么工作是一定安全的,他们都有可能被 AI 替代。

           

          有用户在 X 上发文称:“现在没有任何工作是安全的。如果你学习了三年,可能最终你还是无法找到工作。甚至在两年后,可能不再需要新的工人,因为一个工人加上 AI 可以一次性完成 10 到 100 个人的工作。可能现在已经完全自动化了。”

           

          获得 10 块金牌的创始人,以及他们的独特技术方案

           

          Cognition AI 公司拥有三位创始人,首先是 CEO Scott Wu,其二是担任 CTO 的 Steven Hao,而后是首席产品官 Walden Yan。Hao 此前曾担任 Scale AI 的顶级工程师,这同样是一家价值可观的初创企业,专司 AI 系统的训练工作。Yan 则刚刚从哈佛大学退学,他要求对此事保密,因为自己还没跟父母通过气。

           

          今年 27 岁的 Wu 是 Neal Wu 的兄弟,Neal Wu 同样供职于 Cognition AI 公司。两兄弟都拥有极为出色的编程能力。Scott Wu 自述自己 9 岁起开始编程,并且非常热爱将自己的想法变成现实的感觉。

           


          还有人挖出了 Scott Wu 在 14 岁时参加 MathCounts 比赛的视频,在比赛中,Scott Wu 回答奥数问题基本不需要多少思考时间,主持人念完问题,Scott Wu 马上能报出答案。

           





          另外,创始人自述团队共有 10 枚 IOI 金牌。

           


          Scott Wu 表示,这样的背景也让这家年轻的初创公司在 AI 市场上占据了优势。他解释称,“指导 AI 成为一名程序员,实际是一个极具深度的算法问题,要求系统做出复杂决策、把握接下来的多个步骤,正确判断应当选择哪条路线。其实我们多年来一直会在脑中推衍这类问题,现在终于有机会把相关思路编码到 AI 系统当中。”

           

          Cognition AI 在设计 Devin 时的一大亮点,就是该公司在计算机推理能力方面取得了突破。从 AI 的角度来讲,推理意味着系统不仅能够预测句子中的下一个单词或者一行代码中的下一片段,更能够以近似人类的方式思考并找到合理的问题解决方法。AI Land 认为推理是驱动行业发展的下一波大势,不少初创企业也都在着力展示自己在这方面的技术能力。

           

          从多个方面来看,Devin 似乎的确远远领先于其他编码助手。用户可以要求它直接处理自然语言命令,Devin 则能够正确理解并完成这些工作。在运行过程中,Devin 还会展示它的开发计划、当前使用的命令和代码。如果有些事情看起来出了问题,开发者可以输入进一步提示以引导 AI 解决问题,Devin 则持续调整并接收反馈。目前大多数 AI 系统在此类长周期工作中都很难保持连续性与任务专注性,但 Devin 却能在不偏离轨道的情况下一口气完成数百甚至上千个任务。

           

          在一些网友的个人测试当中,Devin 的确能够在 5 到 10 分钟内从零开始构建起网站,也可以在大致相同的时间内开发出基于 Web 的 Pong 游戏。期间虽然也需要人类介入过几次,通过提示改善游戏中小球运动的物理轨迹,此外还对网站外观做出一点调整,Devin 则始终保持着礼貌的态度并顺利满足了测试人员的新要求。

           

          Silas Alberti 是一位计算机科学家,也是另一家秘密 AI 初创公司的联合创始人。他体验过 Devin,并盛赞其代表着一次技术飞跃。在他看来,Devin 的表现不像是 AI 助手在编写代码,而更像是有真人在处理手头的工作。“这种感觉有很大区别,Devin 是一套能帮我们做事的自主系统。”

           

          Alberti 还提到,Devin 比较擅长项目原型设计、修复 bug 并以图形方式显示复杂数据。“大多数其他助手在四、五个步骤后就「断片」了,但 Devin 在整个工作流程中能够轻松自如地保持住思维主线。”

           

          至少对外人来说,Cognition AI 在如此短的时间内取得重大突破的方式仍然是个未解之谜。Wu 拒绝透露太多关于该技术的底层细节,只表示他的团队找到了将 OpenAI GPT-4 等大语言模型(LLM)与强化学习技术相结合的独特方法。“很明显,AI 领域的从业者们长期以来一直在为此而努力。而正确的路线很大程度上取决于模型和方法,特别是怎样让各种要素恰到好处地协调一致。”

           

          Cognition AI 公司并不是唯一一家致力于构建 AI 编码工具的企业。就在上个月,初创公司 Magic AI 刚刚从 Daniel Gross 和 Nat Friedman 等人的风险投资团队处筹集到超 1 亿美元,旨在打造 Gross 宣称的“超级软件工程师”。与那些建立在 OpenAI、Anthropic 等大语言模型之上的公司不同,Magic AI 选择从零开始设计自己的模型和其他底层技术,希望借此保障业务独立性。这家初创公司尚未对外展示其 AI 系统,因此我们很难将其与 Cognition AI 的产品直接比较。

           

          Cognition AI 方面则拒绝透露 Devin 在多大程度上依赖于其他现有大语言模型,所以哪怕是在具体实现方法上,我们也没法将二者进行对比。

           

          无论出自哪家企业之手,软件开发人员都想知道这些新技术会不会威胁到自己的谋生饭碗,而行业观察者们则好奇 AI 的介入能否颠覆整个软件开发体系。我们有理由认为,这些编程助手能够把开发人员从繁琐枯燥的重复性任务中解放出来,让他们专注于更具创造性的工作。此外,脑袋里灵感不断、但苦于缺乏编程技能的朋友们则可以借此开发自己的网站、服务和应用程序。可话说回来,这些编程助手也可能消灭大量高薪开发者岗位,彻底重塑整个软件行业的商业逻辑。

           

          对于 AI 参与厂商及其投资方来说,Cognition AI 的横空出世也不一定就是一家独大的前兆。我们正处于探索 AI 编码能力及其技能将如何影响传统程序员们的早期阶段。可以想见,这将是一个充满激情与突破的活跃领域,而 AI 编码也凭借其光明的前途与巨大的想象空间吸引到了全球许多最优秀、最睿智的头脑。

           

          参考链接:

          https://www.cognition-labs.com/blog

          https://twitter.com/karpathy/status/1767598414945292695

          https://twitter.com/ScottWu46/status/1767555214104539508

          2024-03-13 16:589647

          评论 3 条评论

          发布
          用户头像
          以后所有人都是AI的奴隶
          2024-03-20 14:58 · 北京
          回复
          用户头像
          天天吹,低代码平台呢,解决了啥问题。一点都不明白什么叫程序,什么叫系统。人与人之间都忒么沟通不明白,还忒么AI。程徐猿都失业了,还要什么会计、审计、记账、ppt大师、翻译
          2024-03-16 22:20 · 北京
          回复
          用户头像
          程序猿:你不要过来啊!!!!啊!~!!!!
          2024-03-13 17:00 · 北京
          回复
          没有更多了

          inBuilder今日分享丨表单设计器画布渲染引擎揭秘

          inBuilder低代码平台

          通过SQL获取每个月第n周任意天的数据

          搞大屏的小北

          sql查询 sql 第一周 每个月 周一

          多元办公场景下,企业如何保障工作效率与数据安全流通?

          人称T客

          项目很大,是否忍一下?

          巨梦科技

          微前端

          数据可视化:分布类可视化图表大全

          2D3D前端可视化开发

          大数据 数据分析 数字化转型 数据可视化 数据可视化工具

          LangChain 查询使用指「北」

          Zilliz

          Milvus AIGC 向量数据库 zillizcloud langchain

          Last Week in Milvus

          Zilliz

          非结构化数据 Milvus Zilliz 向量数据库

          软件测试/测试开发丨Web自动化测试高级定位xpath

          测试人

          程序员 软件测试 自动化测试 测试开发

          拿到字节跳动奖学金,入职字节跳动做科研,他们经历了什么?

          字节跳动技术范儿

          字节跳动 语音合成 模型压缩

          万众瞩目的Nautilus Chain即将上线主网,生态正式起航

          大瞿科技

          踢碎破局陷阱,来一场酣畅淋漓的 SLG!

          网易智企

          AI AIGC

          RocketMQ 多级存储设计与实现

          阿里巴巴云原生

          阿里云 RocketMQ 云原生

          软件架构: 一切皆有代价

          俞凡

          架构

          Wallys/DR5018+QCN6122/support for the latest Wi-Fi standards in networking devices.

          Cindy-wallys

          ipq5018 QCN6102 QCN6122

          AIGC下的低代码赛道,你我皆是拓荒人

          引迈信息

          AI 低代码 AIGC JNPF

          数字化转型应该如何去做?(过程管理方法篇)

          数字随行

          数字化转型

          架构愿景: 构建良好软件的关键

          俞凡

          架构

          GreptimeDB 使用指南|快速查询分析外部数据

          Greptime 格睿科技

          数据库 分布式 云原生 时序数据库 使用指南

          点云标注技术推动该领域的发展

          来自四九城儿

          MobTech MobLink|小程序、网页跳转App的原理

          MobTech袤博科技

          Kyligence x 明道云|低代码平台助力中小企业实现存量背景下的创新增长

          Kyligence

          数据分析 低代码平台 指标平台

          云服务器与独立服务器的性能比较:您需要了解的关键差异

          一只扑棱蛾子

          云服务器 独立服务器 服务器性能

          利用跨端框架和小程序容器技术,打造一致体验的多平台应用

          FinFish

          小程序 小程序容器 跨端框架 小程序化

          名侦探白洞(二):办公室“神秘人”事件

          白洞计划

          智慧楼宇

          怎样将图片直接转换为3d模型?

          真大的脸盆

          Mac Mac 软件 图片转换工具 图片转换模型软件

          开源大模型新SOTA!支持免费商用,比LLaMA65B小但更强,基于1万亿token

          Openlab_cosmoplat

          开源社区 falcon

          90后华人团队真来砸程序员饭碗了?推出全球首个AI超级工程师:拥有全栈技能,一个指令就能完成整个开发过程_生成式 AI_Tina_InfoQ精选文章