写点什么

前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个 AI 程序员”到底造假没?

  • 2024-05-06
    北京
  • 本文字数:2613 字

    阅读完需:约 9 分钟

大小:1.15M时长:06:43
前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个AI程序员”到底造假没?

 3 月份,有着“世界首个 AI 程序员”的 Devin 横空出世,立刻就被大家追捧。据报道,Devin 可以规划和执行需要数千个决策的复杂工程任务,并回忆每一步的相关背景,随着时间的推移学习并修复错误。一时间,各个程序员们心里慌慌。

 

近日,前 LangChain 员工 Andrew Gao 在网上爆料了即将上线的 Devin 2.0 新功能。

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    首先,启动交互模式以帮助 Devin 浏览网络。如果被卡在图片验证码之类的东西上,那么它非常有用。诚然,它有些慢(他们承认这一点),但它工作得足够好,能够做出点击动作。

     


    其次,之前大家抱怨的使用 Devin 无法干预和编辑代码,现在可以通过启动 Web VSCode 来执行此操作。



    另一个更新则是 Cookie,它让 Devin 能够使用用户的帐户登录网站,而无需向 Devin 提供用户密码。 PhantomBuster 也做了类似的事情。

     

    Andrew 举了个例子,他让 Devin 在 DoorDash 上订购鸡翅, Devin 很好地找到了店铺 Wingstop、选择了鸡翅以及操作各种复选框......

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


       Devin 现在似乎更擅长编写网站:

       


      Devin 还新增了“机器快照”功能,机器快照可以让用户保存 Devin 的状态,这样当服务器关闭时,用户可以再次启动。



      Devin 还支持与 GitHub 集成,可以让 Devin 进行提交。

       


      不过需要注意的是,Devin 背后公司 Cognition 并未正式发布上述功能。

      创始人最新访谈,闭口不谈造假风波

       

      对于 Devin 来说,最火的时刻有两个:一是 3 月 13 日刚发布时,二是两周多后被指造假时。

       

      就在上个月初,一位自称有 35 年软件工程师经验的网络博主卡尔质疑 Devin 造假,卡尔逐帧复现了 Devin 的演示视频并提出质疑,主要包括以下方面:

       

      • Devin 被认为能够解决任意 Upwork 任务。但在视频演示中,要求解决的问题与客户规定的要求(客户要求设置说明,而不是代码)不符;

      • Devin 正在修复 GitHub 存储库源中的错误,但它所编辑的文件实际上并不存在于该存储库中,而且它修复的一些错误是无意义的,属于人类永远不会犯的类型。推论:Devin 一定是在修复它自己创建的文件中的错误,但没有明确指出;

      • EC2 部分不需要进行任何编码,因为存储库中的自述文件包含完成任务所需的所有说明,只需一行调整即可正常工作,即使存储库是旧版本。这就是为什么客户要求提供有关如何在 EC2 上运行的说明,而不是一些编码要求。 Devin 似乎没有阅读 README,也不明白它只需要执行几个预先存在的 Python 脚本。视频中的输出看起来任务很复杂,有很长的计划和许多显示工作已完成的复选框,但实际上这项工作毫无意义且多余;

      • Devin 的代码更改很糟糕,例如编写自己的低级文件读取循环而不是正确使用标准库;

      • 虽然视频看起来 Devin 很快就完成了任务,并且视频创建者能够在大约 30 分钟内完成所请求的任务,但聊天中的时间戳显示该任务持续了多个小时,甚至持续到第二天;

      • Devin 执行无意义的 shell 命令,如“head -n 5 foo | tail -n 5”。

       

      卡尔认为,Cognition Labs 夸大了 Devin 的能力,视频描述和推文中存在谎言,造成混乱和误解。卡尔建议,不要在未经适当研究的情况下盲目重复和放大网上发现的主张。

       

      “几乎没有任何人工智能产品能在经过大肆宣传后的几周后,依然表现让人满意。”有网友评价道。

       

      虽然人们非常期待 Cognition 能对这些质疑进行回应,但截至目前该团队都没有做出解释。我们只能在 4 月中旬,Scott 的推特中隐约看到他对 Devin 缺点的态度:今天的 Devin 还远非完美。Devin 经常工作,但也经常犯错误、编写错误或陷入困境。

       

      5 月 2 日,Scott Wu 参加的不到 30 分钟的采访视频发布。Scott 在视频里表示,未来工程师并不会因为 AI 减少,反而会越来越多。首先,AI 会对工程的需求变大,“很多问题可以用代码解决,也有很多问题可以用代码构建”;其次,Devin 不是决定做什么的人,使用它的人应该知道要构建什么、解决什么问题等,因此他认为 Devin 只是让工程师更加纯粹。

       

      Scott 认为,Devin 更加擅长的领域在 Devops 和 Dev 设置方面。“Devin 第一个真正让我们兴奋的时刻是数据库表旋转、Kubernets 启动时。” 另一个很好的用例则是数据分析。Scott 强调,Devin 是执行者,它的重点是如何准确理解需求后将其表述为代码并做到。



      “他们给了他一切机会来回应对视频的批评,但他一直回避。他没有说任何实质性内容。这次采访并没有激发人们对他的公司的任何信心。”有网友在采访视频下评论道,甚至有人调侃称,“加密货币诈骗者接受加密货币诈骗者采访。”

       

      当然也有力挺的网友,“在这里看到这么多仇恨者真是太疯狂了。Scott 建立了一支非常优秀的团队,并正在开发一款革命性的产品。”

       

      根据 Linkedin 显示,该公司目前有超过 35 人的员工,上面各项动态依然停留在 Devin 刚发布那天。


      “无法透露更多细节”

       

      Cognition 公司拥有三位创始人:CEO Scott Wu、CTO Steven Hao 和盒首席产品官 Walden Yan。

       

      Scott Wu 自述自己 9 岁起开始编程,并且非常热爱将自己的想法变成现实的感觉。还有人挖出了 Scott Wu 在 14 岁时参加 MathCounts 比赛的视频。在比赛中,Scott Wu 回答奥数问题基本不需要多少思考时间,主持人念完问题,Scott Wu 马上能报出答案。

       

      Hao 此前曾担任 Scale AI 的顶级工程师,这同样是一家价值可观的初创企业,专司 AI 系统的训练工作。Yan 则刚刚从哈佛大学退学,他要求对此事保密,因为自己还没跟父母通过气。创始人还自述团队共有 10 枚 IOI 金牌。

       

      这样的团队已经获得了彼得·蒂尔的 Founders Fund 基金领投的 2100 万美元 A 轮融资。另外根据彭博社报道,前 Twitter 高管 Elad Gil 也参与了对 Cognition AI 的投资。 

       

      但 Cognition 如何在如此短的时间内取得重大突破仍然是个未解之谜。

       

      Scott 拒绝透露太多关于该技术的底层细节,只表示他的团队找到了将 OpenAI GPT-4 等大语言模型(LLM)与强化学习技术相结合的独特方法。Cognition 方面也拒绝透露 Devin 在多大程度上依赖于其他现有大语言模型。

       

      Scott 在访谈中也依然表示不能透露更多关于 Devin 如何运行的细节。

       

      所有涉及运行实现的部分,整个 Cognition 团队都三缄其口,增加了神秘感的同时也让外界对其更加怀疑,毕竟“Talk is cheap,Show me your code”已经成为大家共识。

       

      参考链接:

      https://twitter.com/itsandrewgao/status/1786617554724921641

      https://www.infoq.cn/article/WXRuf4M0fOibdRIEleJf?utm_campaign=geek_search&utm_content=geek_search&utm_medium=geek_search&utm_source=geek_search&utm_term=geek_search

      https://news.ycombinator.com/item?id=40008109

      https://www.youtube.com/watch?v=OvBiqmcnjHY

      2024-05-06 14:155644

      评论

      发布
      暂无评论
      发现更多内容

      科普小知识:区块链与分布式系统

      CECBC

      区块链 分布式

      前端智能化的加速时刻:华为机器视觉的创新方程式

      脑极体

      Flink-键值分区状态-10

      小知识点

      scala 大数据 flink

      零代码简史

      明道云

      SaaS

      性能相关,内存

      Linuxer

      性能

      易观方舟Argo+CRM | 让企业数据发挥更大价值

      易观大数据

      迎接物联网时代,区块链大有可为

      CECBC

      云计算 大数据 区块链技术

      温故知新——Spring AOP

      牛初九

      spring aop ioc

      月度工作汇报,为什么要全球直播?

      赵新龙

      TGO鲲鹏会 技术社区 开源社区

      面试官再问你Http请求过程,怼回去!

      架构师修行之路

      HTTP TCP/IP

      区块链是一个有去无返的奇幻旅程

      CECBC

      区块链

      甲方日常2

      句子

      工作 随笔杂谈 日常

      难以遏制的人因差错-Go的日志工具之痛

      田晓亮

      微服务 Go 语言

      聊聊微服务

      炜娓道来程序人生

      架构 微服务 SOA

      《搞定1》读书笔记

      超超不会飞

      解决数据指数级增长挑战,英特尔如何又快又好提供领导力产品?

      最新动态

      【Elasticsearch 技术分享】—— ES 查询检索数据的过程,是什么样子的?

      程序员小航

      Java elasticsearch 搜索 ES Lucene Elastic Search

      有选择才会有困惑

      escray

      学习 面试

      第11周总结+作业

      林毋梦

      面经手册 · 第7篇《ArrayList也这么多知识?一个指定位置插入就把谢飞机面晕了!》

      小傅哥

      Java 数据结构 面试 小傅哥 ArrayList

      为什么中国出了这么多厉害的互联网公司,但没有自己设计过编程语言?

      代码制造者

      编程语言 低代码 企业信息化 零代码 编程开发

      Redis系列(一):Redis简介及环境安装

      简爱W

      Redis系列(二):Redis的5种数据结构及其常用命令

      简爱W

      Luajit字节码分析之KSTR

      whosemario

      lua

      Docker 镜像构建之 Dockerfile

      哈喽沃德先生

      Docker 容器 微服务

      Woman、man、camera、TV:如何做一个完整的深度学习应用

      LeanCloud

      学习 程序员 互联网 容器 LeanCloud

      使用 K8s 进行作业调度实战分享

      后端进阶

      学习 Kubernetes 容器 k8s 调度式分布

      Android |《看完不忘系列》之dagger

      哈利迪

      android

      Java | 你知道快速搭建一个spring boot项目该怎么做吗?

      简爱W

      Apache Pulsar 2.6.1 版本正式发布:2.6.0 功能增强版,新增 OAuth2 支持

      Apache Pulsar

      消息队列 Apache Pulsar 消息系统 消息中间件

      OPPO互联网DevSecOps实践

      OPPO安全

      DevOps 安全

      前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个AI程序员”到底造假没?_AI&大模型_褚杏娟_InfoQ精选文章