AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

Claude Sonnet 3.5 口碑爆棚!10 倍速开发,“2 个月内用 Rust 从零构建完一款产品”

  • 2024-07-22
    北京
  • 本文字数:3660 字

    阅读完需:约 12 分钟

大小:1.68M时长:09:48
Claude Sonnet 3.5 口碑爆棚!10倍速开发,“2个月内用Rust 从零构建完一款产品”

昨天,技术创始人 lapurita 关于“使用 Claude Sonnet 3.5 实现了 10 倍开发速度”的帖子火了。

 

“我震惊地发现,原来 Sonnet 3.5 可以让开发速度变得这么快!”lapurita 说道。“我没有夸大所有大模型,因为这是第一个让我真正用起来感到舒适的大模型。我可以比之前快 10 倍地实现市面上大部分热门应用的技术部分。我仍然需要做架构和基础设施的决策,但像编写 UI 组件这样的事情,现在真的比之前快了 10 倍,这让迭代速度变得非常快。”

 

或许 lapurita 的说法引起了开发者共鸣,大家纷纷转发赞同 lapurita 的说法。一时间,OpenAI 竞争对手的 Claude 模型风头无两。

 

不止 10 倍?

 

根据 lapurita 的介绍,现在他开发一个功能的工作流程基本上是:

 

  • 深入思考功能,也可能会与 Claude 一起讨论;

  • 编写基本规格(通常只是一些句子和要点),并与 Claude 一起迭代;

  • 确保为 Claude 提供所有相关的上下文,并请求代码实现。

 

lapurita 介绍,他会先在 Claude 中上传相关文件并创建相关项目,其中最重要的文件是其称之为“main context”的文件,该文件非常明确地指定了应用程序当前正在做什么以及在下一个版本中应该做什么。lapurita 还指定了所有的技术决策以及选择它们的原因,同时解释了希望 Claude 遵循的更具体的代码设计模式(例如如何保持服务器状态和客户端状态同步)。lapurita 还有一个包含整个数据库模式,以及一些示例 API 端点的文件。这些文件基本上总结了迄今为止关于项目的所有信息。

 

在 Claude 的“项目”中,用户可以创建多个对话。lapurita 给到的一个技巧提示是,在开始一个新功能时就建立多个对话,否则上下文窗口会因为无关紧要的东西而变得杂乱,从而占用消息限制。开始一个新对话时,“main context”文件就非常重要。

 

lapurita 提到的一个例子是前几天他为内容创建的一个类似 Instagram Reels/TikTok 的 feed 流。“这并不是什么火箭科学,但我对 SwiftUI 没有太多经验,这里有一些半高级的动画/布局的东西,但我与 Claude 做出一个完全可用的实现(符合我的 API 规范并与实际数据库合作)只需要 20 分钟。重要的是,生成的代码遵循了我描述的模式,并且与我代码库中的其他部分一致(所以这实际上是我会写出来的代码,只是加速了),而这是我在使用其他模型时会遇到的问题。”

 

lapurita 认为,使用者非常了解应用程序的架构,包括大体架构和更具体的代码(比如如何处理数据获取的设计模式等)是非常重要的。如果没有这方面的经验,而只是使用 Claude,代码库很可能会变得过于混乱和复杂,导致之后难以修改。

 

“这是我之前遇到过的陷阱,我认为这也是那些仍然抗拒将大模型用于自动化以外用途的程序员会遇到的问题。”lapurita 表示,发生上述情况时,开发者不可避免地会想自己应该从一开始就自己编程。但如果开发者始终引导 Claude 按照自己的意愿行事,并跟上和理解生成的代码,这种情况就不会发生。

 

“跟上 Claude 给出的代码非常重要,有时我一整个会话都只是阅读生成的代码,这样我就能有像自己写出来的代码一样的感觉。”lapurita 说道。

 

这种构建产品方式的本质是尝试围绕新的软件生产方式调整开发人员工具和流程。当前,不断来回引导大模型做开发者真正想做的事情、缺乏处理部署等能力是这种开发方式的新瓶颈。

 

“实际上,我认为即使 Sonnet 3.5 没有进一步发展,只要将其‘正确’集成(而不仅仅是放入聊天框)到我们用于生产软件的其他东西,我们就可以从 10 倍提高到 20-50 倍。”开发者 Fred Weitendorf 表示。

 

Weitendorf 指出,确实必须能够“缩小范围”才能避免产生一团乱糟糟的东西,但更难的问题是,使用者仍然必须知道要指定什么。

 

作为一名经验丰富的程序员,lapurita 对即将编写的代码的总体结构有着强烈的直觉,这就是为什么他基本上可以将 sonnet 3.5 当作“编译器”来使用。但缺乏经验的人是通过反复试验来编写软件,并且不太善于表达自己想要的东西,所以他们不能以这种方式使用 Claude,否则可能还会减慢他们的速度。

 

此外,即使是经验丰富的工程师也很难写出好的提示,这也成为大模型构建产品时的阻碍。

 

lapurita 指出,他的使用经验对初创公司非常适用,但对大公司来说就不是这样了。“在我所在的公司,虽然大模型仍然有所帮助,但远不如在构建新产品时那么有用。我认为,主要是因为我无法获得相同的架构概述,因此很难为大模型提供所有相关上下文。”

 

但无论如何,lapurita 对这个工具非常满意,因为它让自己可以专注于应用程序更困难的部分。

 

EverArt 创始人 Pietro Schirano 转发了 lapurita 的帖子并称,他第一次创业,9 个月内每月收入 10 万美元,是“Sonnet 3.5 改变了一切。”

 

开发者 Sully Omarr 也转发帖子并表示,“我们 50% 的代码库完全由大模型编写,预计到明年这个比例将达到约 80%。有了 Sonnet ,我们的交付速度非常快,感觉我们的员工人数一夜之间增加了三倍。不使用 Claude 3.5 编写代码?那估计会被使用 Claude 3.5 的团队击败(比如我们)。” 他认为,2-3 年内大模型编写的代码会被抽象出来,但开发者仍然需要知道如何编写代码。

 

“GPT-4 不再是最好的模型”

 

“我是 GPT 用户,我应该切换到 Claude 吗?”帖子下面有人问到。“是的,它使编码变得简单得多。”有网友直接回复。

 

不得不说,有一批用户已经开始转向了 Claude。“我取消了一年多前订阅的 GPT-4 订阅,改成订阅 Claude。没有手机应用程序,也没有 GPTs 或自定义说明(在网络版本中 - 不使用 API)。但老实说,我并不关心这些。我主要用它写作和集思广益,Claude 3(甚至 Gemini)的表现优于 GPT。”

 

如今,GPT-4o 的使用者也在动摇:“Claude 真的比 GPT-4o 好很多吗?我之前用过 Claude Opus 但印象并不深刻,而且我还使用 OpenAI API。除非真的值得,否则我不想同时为这两项服务付费,我现在整天都在使用 GPT。”

 

“如果你擅长编码提示,那么 Claude Sonnet 3.5 绝对适合。”这是该网友得到的回答。

 

相信很多人已经对 OpenAI 与 Anthropic 之间的竞争故事有所了解:Anthropic 七位联合创始人此前都曾在 OpenAI 工作过。Anthropic 首席执行官 Dario Amodei 还曾担任 OpenAI 的研究副总裁,他甚至撰写了 OpenAI 章程的大部分内容,这份文件承诺实验室及其员工将致力于安全开发强大的人工智能。

 

Claude 系列模型在开发人员中的好口碑也不是一天两天了。在 Claude 3 发布不久后,工程师 Singularity 就称,“Claude 3 非常出色,实际上能生成出比 ChatGT 质量更好的代码。”

 

Singularity 指出,Claude 有比 GPT 更好的上下文能力。“我可以将我的文件输入 Claude 并告诉它进行更改,它甚至会记住这些文件中的代码并记住我们所做的更改,在被告知调用一个非常古老的代码片段后,它可以完美地实现调用。”

 

根据介绍,Claude 3 模型将其前代的上下文窗口大小翻倍,为用户提供 20 万个 token 的上下文窗口,相当于大约 15 万个单词。Claude 3 Opus 模型在特定用例下还支持高达 100 万个 token 的输入。

 

其次,Singularity 表示,Claude 在各种语言上的表现也更好。“我讨厌的一件事是每个人都一直用 Python 测试它,这证明 Python 并没有那么难。我用 Rust、Go、Haskell 和 C++ 编写代码, Claude 的 Rust 能力比 GPT-4 好太多,GPT 对 Rust 几乎无能为力。两者在 Go 上差不多,在 C++ 和 Haskell 上,Claude 比 GPT-4 要好。”

 

开发者 joowani 在 lapurita 最新的帖子下面也有这方面的表达,“我使用 Copilot 和 Claude Sonnet 3.5,它们极大地帮助我学习 Rust,并在短短 2 个月内从头开始构建了市场上最快的产品。”

 

Singularity 还指出 Claude 有比 GPT 更少的幻觉。“我厌倦了 OpenAI 粉丝们对 Claude 的轻视。它真的非常好,连 Sonnet 都很好。它在代码中做得较少的一件事是产生幻觉,当然它仍然有,但远不如 GPT-4 那么多。GPT- 4 编造一些疯狂的函数,即使你告诉它不存在,它还是会这样做。Claude 也会给出不存在的函数,但会倾听下一个提示词。”

 

“GPT-4 不再是最好的模型,这是事实。”有网友在 5 月前的帖子下评论道。现在,越来越多的网友开始展示自己使用 Claude 的成果。

 

开发者 Dave 展示了自己用 Claude 3.5 Sonnet 的构建成果,内部工具 Voice Notes AI 一共 1294 行代码,仅花了 Dave 两个小时的时间:

 


还有网友展示了自己用 Claude 3.5 Sonnet 仅花了 2 分钟的时间就从一张截图创建了功能齐全的 ChatGPT 克隆版。在最近的微软蓝屏事件中,AIPRM Corp 首席工程师 Tibor Blaho 展示了用 Claude 制作的非 Windows 用户的 Crowdstrike Falcon BSOD 屏幕。

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    此外,还有网友表示在向 Sonnet-3.5 提出了一个愚蠢的问题后,它突然不再认真回答,而是开始开玩笑。他表示这种行为从未在 GPT-4 上见过:



    反观现在的 OpenAI,万众期待的 GPT-5 难产,发力方向也比较“多元”,比如被解读为加入价格战的代表 GPT-4o mini 等。这不免让一些网友担心:OpenAI 是否会在绝对优势下,逐渐丢失积攒的好口碑呢?

     

    参考链接:

    https://old.reddit.com/r/ycombinator/comments/1e7rtdw/feeling_very_powerful_as_a_technical_founder_with/

    https://x.com/minchoi/status/1815024013812416567

    2024-07-22 17:428078

    评论 1 条评论

    发布
    用户头像
    还没支持中文吧、

    2024-07-23 08:33 · 北京
    回复
    没有更多了

    软件测试 | 想做性能测试的你,是否面临以下痛点?

    测吧(北京)科技有限公司

    测试

    软件测试 | 如何找到适合您需求的性能测试工具?

    测吧(北京)科技有限公司

    测试

    详解ReflectionClass类在PHP反射API中的应用

    技术冰糖葫芦

    API boy API 文档 pinduoduo API API 性能测试

    程序员对 VSCode 粘性滚动真的不感兴趣吗?

    伤感汤姆布利柏

    软件测试 | 如何解读各种性能测试数据和曲线图?

    测吧(北京)科技有限公司

    测试

    软件测试 | 为何测试环境难以搭建与维护?

    测吧(北京)科技有限公司

    测试

    mac空间不足怎么办 mac内存满了怎么清理

    阿拉灯神丁

    MacBook CleanMyMac X mac‘ 电脑软件 杀毒软件

    软件测试 | 分析和处理海量测试数据集的策略

    测吧(北京)科技有限公司

    测试

    前端性能优化:从系统分析讲到实践策略

    秃头小帅oi

    一键自动化博客发布工具,用过的人都说好(腾讯云篇)

    程序那些事

    工具 程序那些事 自动发布

    软件测试 | 揭秘设计现实负载测试场景的艺术:实用方法详解

    测吧(北京)科技有限公司

    测试

    VMware ESXi 6.7U3u macOS Unlocker & OEM BIOS 标准版和厂商定制版 UI fix

    sysin

    esxi

    软件测试 | 如何选择适合自己业务需求和技术栈的工具?

    测吧(北京)科技有限公司

    测试

    SD-WAN技术助力企业网络应对六大挑战

    Ogcloud

    SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

    掌握在测试中精确模拟用户行为的艺术:技术和工具

    测吧(北京)科技有限公司

    测试

    VMware ESXi 6.7U3u macOS Unlocker & OEM BIOS 集成 Realtek 网卡驱动和 NVMe 驱动 (集成驱动版) UI fix

    sysin

    esxi

    SD-WAN怎样提升Microsoft 365用户体验感

    Ogcloud

    SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

    Technical comparison of IPQ4019, IPQ4029, and IPQ4018 chips

    wifi6-yiyi

    ipq4029 wifi5

    小米面试:如何实现优先级线程池?

    王磊

    Java 面试

    时序数据库 vs 实时数据库,一文搞懂!

    Apache IoTDB

    软件测试 | 简化测试数据生成和管理的复杂性

    测吧(北京)科技有限公司

    测试

    软件测试 | 不是已经做了性能测试么,为什么系统一上线就崩溃了?

    测吧(北京)科技有限公司

    测试

    服务器成本太高,如何确定有效主机容量,节约成本?

    测吧(北京)科技有限公司

    测试

    关于TypeScript数据类型

    高端章鱼哥

    软件测试概念与体系

    测吧(北京)科技有限公司

    测试

    软件测试 | 简历投了一大堆,面试机会没几个?

    测吧(北京)科技有限公司

    测试

    云架构系统如何进行大规模性能测试?

    测吧(北京)科技有限公司

    测试

    Doris 实现原理之高效存取 varchar 字符串

    Baidu AICLOUD

    大数据

    Claude Sonnet 3.5 口碑爆棚!10倍速开发,“2个月内用Rust 从零构建完一款产品”_AI&大模型_褚杏娟_InfoQ精选文章