写点什么

前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个 AI 程序员”到底造假没?

  • 2024-05-06
    北京
  • 本文字数:2613 字

    阅读完需:约 9 分钟

大小:1.15M时长:06:43
前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个AI程序员”到底造假没?

 3 月份,有着“世界首个 AI 程序员”的 Devin 横空出世,立刻就被大家追捧。据报道,Devin 可以规划和执行需要数千个决策的复杂工程任务,并回忆每一步的相关背景,随着时间的推移学习并修复错误。一时间,各个程序员们心里慌慌。

 

近日,前 LangChain 员工 Andrew Gao 在网上爆料了即将上线的 Devin 2.0 新功能。

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    首先,启动交互模式以帮助 Devin 浏览网络。如果被卡在图片验证码之类的东西上,那么它非常有用。诚然,它有些慢(他们承认这一点),但它工作得足够好,能够做出点击动作。

     


    其次,之前大家抱怨的使用 Devin 无法干预和编辑代码,现在可以通过启动 Web VSCode 来执行此操作。



    另一个更新则是 Cookie,它让 Devin 能够使用用户的帐户登录网站,而无需向 Devin 提供用户密码。 PhantomBuster 也做了类似的事情。

     

    Andrew 举了个例子,他让 Devin 在 DoorDash 上订购鸡翅, Devin 很好地找到了店铺 Wingstop、选择了鸡翅以及操作各种复选框......

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


       Devin 现在似乎更擅长编写网站:

       


      Devin 还新增了“机器快照”功能,机器快照可以让用户保存 Devin 的状态,这样当服务器关闭时,用户可以再次启动。



      Devin 还支持与 GitHub 集成,可以让 Devin 进行提交。

       


      不过需要注意的是,Devin 背后公司 Cognition 并未正式发布上述功能。

      创始人最新访谈,闭口不谈造假风波

       

      对于 Devin 来说,最火的时刻有两个:一是 3 月 13 日刚发布时,二是两周多后被指造假时。

       

      就在上个月初,一位自称有 35 年软件工程师经验的网络博主卡尔质疑 Devin 造假,卡尔逐帧复现了 Devin 的演示视频并提出质疑,主要包括以下方面:

       

      • Devin 被认为能够解决任意 Upwork 任务。但在视频演示中,要求解决的问题与客户规定的要求(客户要求设置说明,而不是代码)不符;

      • Devin 正在修复 GitHub 存储库源中的错误,但它所编辑的文件实际上并不存在于该存储库中,而且它修复的一些错误是无意义的,属于人类永远不会犯的类型。推论:Devin 一定是在修复它自己创建的文件中的错误,但没有明确指出;

      • EC2 部分不需要进行任何编码,因为存储库中的自述文件包含完成任务所需的所有说明,只需一行调整即可正常工作,即使存储库是旧版本。这就是为什么客户要求提供有关如何在 EC2 上运行的说明,而不是一些编码要求。 Devin 似乎没有阅读 README,也不明白它只需要执行几个预先存在的 Python 脚本。视频中的输出看起来任务很复杂,有很长的计划和许多显示工作已完成的复选框,但实际上这项工作毫无意义且多余;

      • Devin 的代码更改很糟糕,例如编写自己的低级文件读取循环而不是正确使用标准库;

      • 虽然视频看起来 Devin 很快就完成了任务,并且视频创建者能够在大约 30 分钟内完成所请求的任务,但聊天中的时间戳显示该任务持续了多个小时,甚至持续到第二天;

      • Devin 执行无意义的 shell 命令,如“head -n 5 foo | tail -n 5”。

       

      卡尔认为,Cognition Labs 夸大了 Devin 的能力,视频描述和推文中存在谎言,造成混乱和误解。卡尔建议,不要在未经适当研究的情况下盲目重复和放大网上发现的主张。

       

      “几乎没有任何人工智能产品能在经过大肆宣传后的几周后,依然表现让人满意。”有网友评价道。

       

      虽然人们非常期待 Cognition 能对这些质疑进行回应,但截至目前该团队都没有做出解释。我们只能在 4 月中旬,Scott 的推特中隐约看到他对 Devin 缺点的态度:今天的 Devin 还远非完美。Devin 经常工作,但也经常犯错误、编写错误或陷入困境。

       

      5 月 2 日,Scott Wu 参加的不到 30 分钟的采访视频发布。Scott 在视频里表示,未来工程师并不会因为 AI 减少,反而会越来越多。首先,AI 会对工程的需求变大,“很多问题可以用代码解决,也有很多问题可以用代码构建”;其次,Devin 不是决定做什么的人,使用它的人应该知道要构建什么、解决什么问题等,因此他认为 Devin 只是让工程师更加纯粹。

       

      Scott 认为,Devin 更加擅长的领域在 Devops 和 Dev 设置方面。“Devin 第一个真正让我们兴奋的时刻是数据库表旋转、Kubernets 启动时。” 另一个很好的用例则是数据分析。Scott 强调,Devin 是执行者,它的重点是如何准确理解需求后将其表述为代码并做到。



      “他们给了他一切机会来回应对视频的批评,但他一直回避。他没有说任何实质性内容。这次采访并没有激发人们对他的公司的任何信心。”有网友在采访视频下评论道,甚至有人调侃称,“加密货币诈骗者接受加密货币诈骗者采访。”

       

      当然也有力挺的网友,“在这里看到这么多仇恨者真是太疯狂了。Scott 建立了一支非常优秀的团队,并正在开发一款革命性的产品。”

       

      根据 Linkedin 显示,该公司目前有超过 35 人的员工,上面各项动态依然停留在 Devin 刚发布那天。


      “无法透露更多细节”

       

      Cognition 公司拥有三位创始人:CEO Scott Wu、CTO Steven Hao 和盒首席产品官 Walden Yan。

       

      Scott Wu 自述自己 9 岁起开始编程,并且非常热爱将自己的想法变成现实的感觉。还有人挖出了 Scott Wu 在 14 岁时参加 MathCounts 比赛的视频。在比赛中,Scott Wu 回答奥数问题基本不需要多少思考时间,主持人念完问题,Scott Wu 马上能报出答案。

       

      Hao 此前曾担任 Scale AI 的顶级工程师,这同样是一家价值可观的初创企业,专司 AI 系统的训练工作。Yan 则刚刚从哈佛大学退学,他要求对此事保密,因为自己还没跟父母通过气。创始人还自述团队共有 10 枚 IOI 金牌。

       

      这样的团队已经获得了彼得·蒂尔的 Founders Fund 基金领投的 2100 万美元 A 轮融资。另外根据彭博社报道,前 Twitter 高管 Elad Gil 也参与了对 Cognition AI 的投资。 

       

      但 Cognition 如何在如此短的时间内取得重大突破仍然是个未解之谜。

       

      Scott 拒绝透露太多关于该技术的底层细节,只表示他的团队找到了将 OpenAI GPT-4 等大语言模型(LLM)与强化学习技术相结合的独特方法。Cognition 方面也拒绝透露 Devin 在多大程度上依赖于其他现有大语言模型。

       

      Scott 在访谈中也依然表示不能透露更多关于 Devin 如何运行的细节。

       

      所有涉及运行实现的部分,整个 Cognition 团队都三缄其口,增加了神秘感的同时也让外界对其更加怀疑,毕竟“Talk is cheap,Show me your code”已经成为大家共识。

       

      参考链接:

      https://twitter.com/itsandrewgao/status/1786617554724921641

      https://www.infoq.cn/article/WXRuf4M0fOibdRIEleJf?utm_campaign=geek_search&utm_content=geek_search&utm_medium=geek_search&utm_source=geek_search&utm_term=geek_search

      https://news.ycombinator.com/item?id=40008109

      https://www.youtube.com/watch?v=OvBiqmcnjHY

      2024-05-06 14:155695

      评论

      发布
      暂无评论
      发现更多内容

      荷小鱼 x mPaaS | 借助 H5 容器改善 App 白屏、浏览器兼容等问题

      蚂蚁集团移动开发平台 mPaaS

      html5 mPaaS 离线包 教育科技

      架构实战营模块一作业

      日照时间长

      架构实战营

      3.2 Go语言从入门到精通:包管理工具之GOPATH

      xcbeyond

      Go 语言 4月日更

      建立自己的领导风格

      石云升

      领导力 28天写作 职场经验 管理经验 4月日更

      货运物流移动端解决方案:为货运物流行业打造高性能、高粘性的“双端”触点

      蚂蚁集团移动开发平台 mPaaS

      移动开发 mPaaS 移动端 智慧物流

      阿凡提EGGNETWORK恒价通证+加密社交催生新玩法 EFTalk

      币圈那点事

      为什么拥有云原生数据平台对电信公司很重要?

      VoltDB

      云原生 5G VoltDB 电信

      盘点几代会声会影图标

      奈奈的杂社

      嘉楠科技发布勘智K210-MicroPython 无需寄存器手册就能上手开发

      HBase底层读写过程

      五分钟学大数据

      HBase 4月日更

      激光雷达(LiDAR)技术

      澳鹏Appen

      人工智能 大数据 智能驾驶 激光雷达 点云标注

      Github上堪称最全的面试题库(Java岗)到底有多香

      钟奕礼

      Java 编程 程序员 架构 面试

      阿里云 RTC QoS 弱网对抗之变分辨率编码

      阿里云CloudImagine

      阿里云 WebRTC 分辨率 视频编解码 视频云

      数字货币,已成为理解现代经济不可排斥的一个因素

      CECBC

      数字经济

      区块链版「滴滴+Uber」,让出行带来收益

      CECBC

      移动互联网

      给你看一个开发和运维的效率加速器!

      BinTools图尔兹

      DevOps 运维 运维工程师 dba 数据库管理工具

      漫画Nginx的subfilter

      运维研习社

      nginx 4月日更

      公安重点人员管控系统搭建,智慧派出所系统

      将AI部署到现实?或许你该读读这本书!

      澳鹏Appen

      人工智能 大数据 AI 伦理

      构建用户安全评级,UGC智能化审核应用实践

      爱奇艺技术产品团队

      人工智能

      入职字节跳动那一天,我哭了(蘑菇街被裁,奋战7个月拿下offer)

      Java 编程 程序员 架构 面试

      后端选择java,还是python?

      cdhqyj

      Java Python 后端 计算机 语言

      Java程序员都要懂得知识点:原始数据类型

      华为云开发者联盟

      Java 字符串 StringBuffer 原始数据类型 布尔类型

      Android AAC音频硬编解码你知道多少?

      Engineer-Jsp

      Github连夜下架!阿里新产Java全栈面试突击小册太香了

      Java架构之路

      Java 程序员 架构 面试 编程语言

      一体化智能安全防御 京东云星盾安全加速正式发布

      京东科技开发者

      互联网 网络安全

      如何抓住新社交风口下的音视频通讯大潮?

      融云 RongCloud

      1800 美金?Apache ShardingSphere 带薪远程实习招募啦!| 2021 Google 编程之夏

      京东科技开发者

      Apache 开源 ShardingSphere

      基于区块链技术的建筑供应链金融创新

      CECBC

      区块链

      Java开发8年,40W年薪被别人叫垃圾?请你们不要口嗨了,好好去刷题吧!

      Java架构追梦

      Java 架构 面试 金三银四 年薪40W

      已拿到8个Offer!阿里巴巴Java面试参考指南(泰山版)

      钟奕礼

      Java 编程 程序员 架构 面试

      前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个AI程序员”到底造假没?_AI&大模型_褚杏娟_InfoQ精选文章