昨天,技术创始人 lapurita 关于“使用 Claude Sonnet 3.5 实现了 10 倍开发速度”的帖子火了。
“我震惊地发现,原来 Sonnet 3.5 可以让开发速度变得这么快!”lapurita 说道。“我没有夸大所有大模型,因为这是第一个让我真正用起来感到舒适的大模型。我可以比之前快 10 倍地实现市面上大部分热门应用的技术部分。我仍然需要做架构和基础设施的决策,但像编写 UI 组件这样的事情,现在真的比之前快了 10 倍,这让迭代速度变得非常快。”
或许 lapurita 的说法引起了开发者共鸣,大家纷纷转发赞同 lapurita 的说法。一时间,OpenAI 竞争对手的 Claude 模型风头无两。
不止 10 倍?
根据 lapurita 的介绍,现在他开发一个功能的工作流程基本上是:
深入思考功能,也可能会与 Claude 一起讨论;
编写基本规格(通常只是一些句子和要点),并与 Claude 一起迭代;
确保为 Claude 提供所有相关的上下文,并请求代码实现。
lapurita 介绍,他会先在 Claude 中上传相关文件并创建相关项目,其中最重要的文件是其称之为“main context”的文件,该文件非常明确地指定了应用程序当前正在做什么以及在下一个版本中应该做什么。lapurita 还指定了所有的技术决策以及选择它们的原因,同时解释了希望 Claude 遵循的更具体的代码设计模式(例如如何保持服务器状态和客户端状态同步)。lapurita 还有一个包含整个数据库模式,以及一些示例 API 端点的文件。这些文件基本上总结了迄今为止关于项目的所有信息。
在 Claude 的“项目”中,用户可以创建多个对话。lapurita 给到的一个技巧提示是,在开始一个新功能时就建立多个对话,否则上下文窗口会因为无关紧要的东西而变得杂乱,从而占用消息限制。开始一个新对话时,“main context”文件就非常重要。
lapurita 提到的一个例子是前几天他为内容创建的一个类似 Instagram Reels/TikTok 的 feed 流。“这并不是什么火箭科学,但我对 SwiftUI 没有太多经验,这里有一些半高级的动画/布局的东西,但我与 Claude 做出一个完全可用的实现(符合我的 API 规范并与实际数据库合作)只需要 20 分钟。重要的是,生成的代码遵循了我描述的模式,并且与我代码库中的其他部分一致(所以这实际上是我会写出来的代码,只是加速了),而这是我在使用其他模型时会遇到的问题。”
lapurita 认为,使用者非常了解应用程序的架构,包括大体架构和更具体的代码(比如如何处理数据获取的设计模式等)是非常重要的。如果没有这方面的经验,而只是使用 Claude,代码库很可能会变得过于混乱和复杂,导致之后难以修改。
“这是我之前遇到过的陷阱,我认为这也是那些仍然抗拒将大模型用于自动化以外用途的程序员会遇到的问题。”lapurita 表示,发生上述情况时,开发者不可避免地会想自己应该从一开始就自己编程。但如果开发者始终引导 Claude 按照自己的意愿行事,并跟上和理解生成的代码,这种情况就不会发生。
“跟上 Claude 给出的代码非常重要,有时我一整个会话都只是阅读生成的代码,这样我就能有像自己写出来的代码一样的感觉。”lapurita 说道。
这种构建产品方式的本质是尝试围绕新的软件生产方式调整开发人员工具和流程。当前,不断来回引导大模型做开发者真正想做的事情、缺乏处理部署等能力是这种开发方式的新瓶颈。
“实际上,我认为即使 Sonnet 3.5 没有进一步发展,只要将其‘正确’集成(而不仅仅是放入聊天框)到我们用于生产软件的其他东西,我们就可以从 10 倍提高到 20-50 倍。”开发者 Fred Weitendorf 表示。
Weitendorf 指出,确实必须能够“缩小范围”才能避免产生一团乱糟糟的东西,但更难的问题是,使用者仍然必须知道要指定什么。
作为一名经验丰富的程序员,lapurita 对即将编写的代码的总体结构有着强烈的直觉,这就是为什么他基本上可以将 sonnet 3.5 当作“编译器”来使用。但缺乏经验的人是通过反复试验来编写软件,并且不太善于表达自己想要的东西,所以他们不能以这种方式使用 Claude,否则可能还会减慢他们的速度。
此外,即使是经验丰富的工程师也很难写出好的提示,这也成为大模型构建产品时的阻碍。
lapurita 指出,他的使用经验对初创公司非常适用,但对大公司来说就不是这样了。“在我所在的公司,虽然大模型仍然有所帮助,但远不如在构建新产品时那么有用。我认为,主要是因为我无法获得相同的架构概述,因此很难为大模型提供所有相关上下文。”
但无论如何,lapurita 对这个工具非常满意,因为它让自己可以专注于应用程序更困难的部分。
EverArt 创始人 Pietro Schirano 转发了 lapurita 的帖子并称,他第一次创业,9 个月内每月收入 10 万美元,是“Sonnet 3.5 改变了一切。”
开发者 Sully Omarr 也转发帖子并表示,“我们 50% 的代码库完全由大模型编写,预计到明年这个比例将达到约 80%。有了 Sonnet ,我们的交付速度非常快,感觉我们的员工人数一夜之间增加了三倍。不使用 Claude 3.5 编写代码?那估计会被使用 Claude 3.5 的团队击败(比如我们)。” 他认为,2-3 年内大模型编写的代码会被抽象出来,但开发者仍然需要知道如何编写代码。
“GPT-4 不再是最好的模型”
“我是 GPT 用户,我应该切换到 Claude 吗?”帖子下面有人问到。“是的,它使编码变得简单得多。”有网友直接回复。
不得不说,有一批用户已经开始转向了 Claude。“我取消了一年多前订阅的 GPT-4 订阅,改成订阅 Claude。没有手机应用程序,也没有 GPTs 或自定义说明(在网络版本中 - 不使用 API)。但老实说,我并不关心这些。我主要用它写作和集思广益,Claude 3(甚至 Gemini)的表现优于 GPT。”
如今,GPT-4o 的使用者也在动摇:“Claude 真的比 GPT-4o 好很多吗?我之前用过 Claude Opus 但印象并不深刻,而且我还使用 OpenAI API。除非真的值得,否则我不想同时为这两项服务付费,我现在整天都在使用 GPT。”
“如果你擅长编码提示,那么 Claude Sonnet 3.5 绝对适合。”这是该网友得到的回答。
相信很多人已经对 OpenAI 与 Anthropic 之间的竞争故事有所了解:Anthropic 七位联合创始人此前都曾在 OpenAI 工作过。Anthropic 首席执行官 Dario Amodei 还曾担任 OpenAI 的研究副总裁,他甚至撰写了 OpenAI 章程的大部分内容,这份文件承诺实验室及其员工将致力于安全开发强大的人工智能。
Claude 系列模型在开发人员中的好口碑也不是一天两天了。在 Claude 3 发布不久后,工程师 Singularity 就称,“Claude 3 非常出色,实际上能生成出比 ChatGT 质量更好的代码。”
Singularity 指出,Claude 有比 GPT 更好的上下文能力。“我可以将我的文件输入 Claude 并告诉它进行更改,它甚至会记住这些文件中的代码并记住我们所做的更改,在被告知调用一个非常古老的代码片段后,它可以完美地实现调用。”
根据介绍,Claude 3 模型将其前代的上下文窗口大小翻倍,为用户提供 20 万个 token 的上下文窗口,相当于大约 15 万个单词。Claude 3 Opus 模型在特定用例下还支持高达 100 万个 token 的输入。
其次,Singularity 表示,Claude 在各种语言上的表现也更好。“我讨厌的一件事是每个人都一直用 Python 测试它,这证明 Python 并没有那么难。我用 Rust、Go、Haskell 和 C++ 编写代码, Claude 的 Rust 能力比 GPT-4 好太多,GPT 对 Rust 几乎无能为力。两者在 Go 上差不多,在 C++ 和 Haskell 上,Claude 比 GPT-4 要好。”
开发者 joowani 在 lapurita 最新的帖子下面也有这方面的表达,“我使用 Copilot 和 Claude Sonnet 3.5,它们极大地帮助我学习 Rust,并在短短 2 个月内从头开始构建了市场上最快的产品。”
Singularity 还指出 Claude 有比 GPT 更少的幻觉。“我厌倦了 OpenAI 粉丝们对 Claude 的轻视。它真的非常好,连 Sonnet 都很好。它在代码中做得较少的一件事是产生幻觉,当然它仍然有,但远不如 GPT-4 那么多。GPT- 4 编造一些疯狂的函数,即使你告诉它不存在,它还是会这样做。Claude 也会给出不存在的函数,但会倾听下一个提示词。”
“GPT-4 不再是最好的模型,这是事实。”有网友在 5 月前的帖子下评论道。现在,越来越多的网友开始展示自己使用 Claude 的成果。
开发者 Dave 展示了自己用 Claude 3.5 Sonnet 的构建成果,内部工具 Voice Notes AI 一共 1294 行代码,仅花了 Dave 两个小时的时间:
还有网友展示了自己用 Claude 3.5 Sonnet 仅花了 2 分钟的时间就从一张截图创建了功能齐全的 ChatGPT 克隆版。在最近的微软蓝屏事件中,AIPRM Corp 首席工程师 Tibor Blaho 展示了用 Claude 制作的非 Windows 用户的 Crowdstrike Falcon BSOD 屏幕。
- 3.0x
- 2.5x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
此外,还有网友表示在向 Sonnet-3.5 提出了一个愚蠢的问题后,它突然不再认真回答,而是开始开玩笑。他表示这种行为从未在 GPT-4 上见过:
反观现在的 OpenAI,万众期待的 GPT-5 难产,发力方向也比较“多元”,比如被解读为加入价格战的代表 GPT-4o mini 等。这不免让一些网友担心:OpenAI 是否会在绝对优势下,逐渐丢失积攒的好口碑呢?
参考链接:
评论 1 条评论