速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

成本直降 90%、延迟缩短 80%!Anthropic 将 API 玩出了新花样,网友:应该成为行业标配

  • 2024-08-16
    北京
  • 本文字数:2135 字

    阅读完需:约 7 分钟

大小:1.02M时长:05:57
成本直降90%、延迟缩短80%!Anthropic将API玩出了新花样,网友:应该成为行业标配

Anthropic 在其 API 上引入了新的提示词缓存机制,可将长提示的成本降低多达 90%,并将延迟降低 80%。

 

提示词缓存功能能够记住 API 调用之间的上下文,并帮助开发人员避免输入重复提示内容。目前该功能已经在 Claude 3.5 Sonnet 以及 Claude 3 Haiku 当中以 beta 测试版的形式开放,但对 Claude 旗下最大模型 Opus 的支持仍未交付。

 


提示词缓存的概念源自 2023 年的研究论文,其允许用户在会话中保留常用的上下文。由于模型能够记住这些提示词,因此用户可以添加额外的背景信息而不必重复承担成本。这一点对于需要在提示词中发送大量上下文,并在与模型的不同对话中多次引用的使用场景非常重要。它还允许开发人员及其他用户更好地对模型响应作出微调。

 

Anthropic 表示,早期用户“已经在多种用例中观察到,使用提示词缓存后速度及成本都出现了显著改善——测试范围从完整知识库到 100 个样本示例,再到在提示词中包含对话的每个轮次。”

 

该公司表示,提示词缓存的潜在效果包括降低对话智能体在处理长指令及上传文档时的成本和延迟、加快代码的自动补全速度、向智能体搜索工具提交多条指令,以及在提示词中嵌入完整文档等等。

 


Anthropic 刚刚公布了一项改变其 API 游戏规则的功能:提示词缓存。

大家可以这样理解提示词缓存的概念:你选中了一家咖啡厅。第一次光顾时,我们需要逐个挑选出自己喜欢的品类。而下次到店时,直接说“老样子”就好。

这就是提示词缓存...... 

提示词缓存价格

提示词缓存的主要优势在于每 token 的价格较低,Anthropic 表示使用这项功能要比“直接输入 token 便宜得多”。

 

以 Claude 3.5 Sonnet 为例,初次输入提示词时每 100 万 token(MTok)的成本为 3.75 美元,但随后调用缓存提示词的每百万 Token 成本仅为 0.30 美元。Claude 3.5 Sonnet 模型的基础提示词输入价格为每百万个 3 美元,也就是说只要预先多付一点钱,那么在下次使用缓存提示词时就能将成本压低至十分之一。

 


我们刚刚在 Anthropic API 中推出了提示词缓存功能。

它能够将 API 的输入成本降低 90%,并将延迟降低 80%。

 

说到成本,尽管初始 API 调用会稍贵一些(毕竟需要将提示词存储在缓存当中),但一切后续调用都只是正常输入价格的十分之一。

 


Claude 3 Haiku 用户使用提示词缓存时每百万 token 时需要额外支付 0.30 美元,而在调用已缓存提示词时每百万 token 价格仅为 0.03 美元。

 

虽然 Claude 3 Opus 尚未提供提示词缓存,但 Anthropic 已经提前公布了具体价格。写入缓存的价格是每百万 token 18.75 美元,而访问已缓存提示词的每百万 token 价格为 1.50 美元。

 

然而,正如 AI 意见领袖 Simon Willison 在 X 上发帖所言,Anthropic 的缓存只有 5 分钟的生命周期,而且每次使用时都会刷新。

 


这看起来跟 Gemini 的上下文缓存功能类似,只是 Anthropic 提出了独立的定价模式。

Gemini 为百万个 token 每小时收取 4.50 美元的费用,即可保持上下文缓存。

Anthropic 直接对缓存输入量收费,而且“缓存的生命周期只有 5 分钟,且每次使用缓存内容时都会刷新”。

 

当然,这也绝不是 Anthropic 第一次尝试通过定价手段跟其他 AI 平台竞争了。在发布 Claude 3 系列模型之前,Anthropic 就曾大幅下调过其 token 的计费标准。

 

在当初为自家平台上的第三方开发商提供低价选项之后,现如今他们再次针对谷歌和 OpenAI 等竞争对手展开一场“比比谁价低”的烈性对抗。

 

功能本身确实备受期待

 

为 Claude 模型引入提示缓存代表了 AI 交互效率的重大飞跃。尤其是在考虑诸如检索增强生成(RAG)或其他长上下文模型等替代方案时,其重要性不容忽视。

 

虽然 RAG 一直是通过外部知识增强 AI 模型的一种流行方法,但 Claude 的提示缓存提供了几个优势:

  • 简单性:不需要复杂的向量数据库或检索机制

  • 一致性:缓存的信息始终可用,确保一致的响应

  • 速度:所有信息都可以立即访问,响应速度更快

 

与具有扩展上下文窗口的模型(如谷歌的 Gemini Pro)相比,Claude 的提示缓存提供了以下优势:

  • 成本效益:只需为使用的部分付费,而不是为整个上下文窗口付费

  • 灵活性:可以轻松更新或修改缓存信息,而无需重新训练

  • 可扩展性:潜在的无限上下文大小,不受模型架构的限制

 

其他平台也开始提供类似的提示词缓存版本。Lamina 是一套大语言模型推理系统,尝试利用 KV 缓存来降低 GPU 使用成本。而随意浏览一下 OpenAI 的开发者论坛或者 GitHub,就会发现大量跟提示词缓存相关的话题。

 

提示词缓存跟大语言模型自己的提示词记忆并不是一回事。例如,OpenAI 的 GPT-4o 就提供记忆机制,模型可以借此记住用户的某些偏好或详细信息。但其无法像提示词缓存那样存储具体提示词及响应结果。

 


X 平台上对此的讨论也很多,有网友评价“提示词缓存”有 100%的颠覆性,应该作为标准被每家大模型厂商采用。

 


还有网友对 AnthropicAI 提示缓存进行了独立评估——结果简直令人震惊,Claude 3.5 Sonnet 能做到 90%的成本节省,而在 Claude 3 Haiku 上甚至能做到 97%的成本节省。

 

展望未来,Claude 的提示缓存在推动更高效、更具成本效益的 AI 交互方面迈出了重要的一步。通过减少延迟、降低成本,并简化复杂知识的整合,这一功能为各行业的 AI 应用开辟了新的可能性。

 

参考链接:

 

https://venturebeat.com/ai/anthropics-new-claude-prompt-caching-will-save-developers-a-fortune/

https://towards-agi.medium.com/how-to-use-claude-prompt-caching-and-ditch-rag-1837add5a733

2024-08-16 18:389854

评论

发布
暂无评论
发现更多内容

做开发,这几种锁机制你不得不了解一下

华为云开发者联盟

读写锁 自旋锁 互斥锁 优先锁

强化学习落地:竞态场景下基于锁机制的闲置端口查用

行者AI

强化学习

麦肯锡最新报告 | 开发者速率成为企业增长助推剂

LigaAI

SaaS

深度分享|中小银行如何实现数字化转型,建设智能营销新体系?

索信达控股

大数据 数字化转型 金融 银行 营销数字化

书单 | 职场办公类私藏好书,轻松Get职场必备技能

博文视点Broadview

李开复、张亚勤、吴恩达…国际大咖给你讲解AI知识

博文视点Broadview

IDC数据中心介绍

大数据技术指南

数据中心 5月日更

架构是什么?空中楼阁?不切实际?

Java架构师迁哥

ASP.NET Core整合Zipkin链路跟踪

yi念之间

联邦学习在视觉领域的应用,揭秘AI人工智能创新应用奖获奖案例

博文视点Broadview

iOS 面试策略之系统框架-设计模式

iOSer

ios 并发编程 tableView

如何快速构建嵌入式全栈知识体系?

博文视点Broadview

阿里的互联网三高架构是真的牛!腾讯百度根本模仿不来

Java架构师迁哥

一颗CPU与病魔赛跑

E科讯

☕【JVM 技术之旅】带你重塑对类加载机制的认识

洛神灬殇

JVM Java虚拟机 类加载器 原理分析 5月日更

云智慧发布《智能业务运维》2021年刊 邀您共览数字化运维全景象

云智慧AIOps社区

AIOPS 智能运维

树莓派上的 K8S 集群挂了,怎么办?

百度开发者中心

百度 技术 经验分享

一种基于实时分位数计算的系统及方法

百度Geek说

云计算 大前端 云服务

毕业设计So Easy:基于Java语言西餐厅点餐系统

不脱发的程序猿

Java 开源 Java语言西餐厅点餐系统 毕业设计

云小课 | 华为云KYON之L2CG

华为云开发者联盟

虚拟私有云 华为云 大二层网络 KYON企业级云网络 L2CG

Mybatis-Plus的应用场景及注入SQL原理分析

vivo互联网技术

源码分析 mybatis

Java程序员想要拿到50W以上年薪,哪个技术是必备的?

Java架构师迁哥

超详细的JQuery的 DOM操作,一篇就足够!

华为云开发者联盟

html 大前端 DOM 函数 JQuery框架

Docker挂了,数据如何找回

运维研习社

Docker 运维 数据恢复 5月日更

网页端IM通信技术快速入门:短轮询、长轮询、SSE、WebSocket

JackJiang

websocket 消息推送 即时通讯 IM

dubbo的前世今生

捉虫大师

dubbo

Hive对分区分桶表的操作

五分钟学大数据

大数据 hive 5月日更

软硬件融合新时代——让软件够灵活,硬件够高效,鱼和熊掌可兼得

博文视点Broadview

当当购书优惠码又可以限时抢啦(热卖新书等你来)

博文视点Broadview

面试37次,16个offer上岸,总结了一些面试心得

北游学Java

面试 offer

打破固有思维(十八)

Changing Lin

5月日更

成本直降90%、延迟缩短80%!Anthropic将API玩出了新花样,网友:应该成为行业标配_生成式 AI_Tina_InfoQ精选文章