成本直降90%、延迟缩短80%！Anthropic将API玩出了新花样，网友：应该成为行业标配_生成式 AI_Tina

AICon上海｜与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用了解详情 



 写点什么



大小：1.02M时长：05:57

成本直降90%、延迟缩短80%！Anthropic将API玩出了新花样，网友：应该成为行业标配

Anthropic 在其 API 上引入了新的提示词缓存机制，可将长提示的成本降低多达 90%，并将延迟降低 80%。

提示词缓存功能能够记住 API 调用之间的上下文，并帮助开发人员避免输入重复提示内容。目前该功能已经在 Claude 3.5 Sonnet 以及 Claude 3 Haiku 当中以 beta 测试版的形式开放，但对 Claude 旗下最大模型 Opus 的支持仍未交付。

提示词缓存的概念源自 2023 年的研究论文，其允许用户在会话中保留常用的上下文。由于模型能够记住这些提示词，因此用户可以添加额外的背景信息而不必重复承担成本。这一点对于需要在提示词中发送大量上下文，并在与模型的不同对话中多次引用的使用场景非常重要。它还允许开发人员及其他用户更好地对模型响应作出微调。

Anthropic 表示，早期用户“已经在多种用例中观察到，使用提示词缓存后速度及成本都出现了显著改善——测试范围从完整知识库到 100 个样本示例，再到在提示词中包含对话的每个轮次。”

该公司表示，提示词缓存的潜在效果包括降低对话智能体在处理长指令及上传文档时的成本和延迟、加快代码的自动补全速度、向智能体搜索工具提交多条指令，以及在提示词中嵌入完整文档等等。

Anthropic 刚刚公布了一项改变其 API 游戏规则的功能：提示词缓存。
大家可以这样理解提示词缓存的概念：你选中了一家咖啡厅。第一次光顾时，我们需要逐个挑选出自己喜欢的品类。而下次到店时，直接说“老样子”就好。
这就是提示词缓存......

提示词缓存价格

提示词缓存的主要优势在于每 token 的价格较低，Anthropic 表示使用这项功能要比“直接输入 token 便宜得多”。

以 Claude 3.5 Sonnet 为例，初次输入提示词时每 100 万 token（MTok）的成本为 3.75 美元，但随后调用缓存提示词的每百万 Token 成本仅为 0.30 美元。Claude 3.5 Sonnet 模型的基础提示词输入价格为每百万个 3 美元，也就是说只要预先多付一点钱，那么在下次使用缓存提示词时就能将成本压低至十分之一。

我们刚刚在 Anthropic API 中推出了提示词缓存功能。
它能够将 API 的输入成本降低 90%，并将延迟降低 80%。

说到成本，尽管初始 API 调用会稍贵一些（毕竟需要将提示词存储在缓存当中），但一切后续调用都只是正常输入价格的十分之一。

Claude 3 Haiku 用户使用提示词缓存时每百万 token 时需要额外支付 0.30 美元，而在调用已缓存提示词时每百万 token 价格仅为 0.03 美元。

虽然 Claude 3 Opus 尚未提供提示词缓存，但 Anthropic 已经提前公布了具体价格。写入缓存的价格是每百万 token 18.75 美元，而访问已缓存提示词的每百万 token 价格为 1.50 美元。

然而，正如 AI 意见领袖 Simon Willison 在 X 上发帖所言，Anthropic 的缓存只有 5 分钟的生命周期，而且每次使用时都会刷新。

这看起来跟 Gemini 的上下文缓存功能类似，只是 Anthropic 提出了独立的定价模式。
Gemini 为百万个 token 每小时收取 4.50 美元的费用，即可保持上下文缓存。
Anthropic 直接对缓存输入量收费，而且“缓存的生命周期只有 5 分钟，且每次使用缓存内容时都会刷新”。

当然，这也绝不是 Anthropic 第一次尝试通过定价手段跟其他 AI 平台竞争了。在发布 Claude 3 系列模型之前，Anthropic 就曾大幅下调过其 token 的计费标准。

在当初为自家平台上的第三方开发商提供低价选项之后，现如今他们再次针对谷歌和 OpenAI 等竞争对手展开一场“比比谁价低”的烈性对抗。

功能本身确实备受期待

为 Claude 模型引入提示缓存代表了 AI 交互效率的重大飞跃。尤其是在考虑诸如检索增强生成（RAG）或其他长上下文模型等替代方案时，其重要性不容忽视。

虽然 RAG 一直是通过外部知识增强 AI 模型的一种流行方法，但 Claude 的提示缓存提供了几个优势：

简单性：不需要复杂的向量数据库或检索机制
一致性：缓存的信息始终可用，确保一致的响应
速度：所有信息都可以立即访问，响应速度更快

与具有扩展上下文窗口的模型（如谷歌的 Gemini Pro）相比，Claude 的提示缓存提供了以下优势：

成本效益：只需为使用的部分付费，而不是为整个上下文窗口付费
灵活性：可以轻松更新或修改缓存信息，而无需重新训练
可扩展性：潜在的无限上下文大小，不受模型架构的限制

其他平台也开始提供类似的提示词缓存版本。Lamina 是一套大语言模型推理系统，尝试利用 KV 缓存来降低 GPU 使用成本。而随意浏览一下 OpenAI 的开发者论坛或者 GitHub，就会发现大量跟提示词缓存相关的话题。

提示词缓存跟大语言模型自己的提示词记忆并不是一回事。例如，OpenAI 的 GPT-4o 就提供记忆机制，模型可以借此记住用户的某些偏好或详细信息。但其无法像提示词缓存那样存储具体提示词及响应结果。

X 平台上对此的讨论也很多，有网友评价“提示词缓存”有 100%的颠覆性，应该作为标准被每家大模型厂商采用。

还有网友对 AnthropicAI 提示缓存进行了独立评估——结果简直令人震惊，Claude 3.5 Sonnet 能做到 90%的成本节省，而在 Claude 3 Haiku 上甚至能做到 97%的成本节省。

展望未来，Claude 的提示缓存在推动更高效、更具成本效益的 AI 交互方面迈出了重要的一步。通过减少延迟、降低成本，并简化复杂知识的整合，这一功能为各行业的 AI 应用开辟了新的可能性。

参考链接：

https://venturebeat.com/ai/anthropics-new-claude-prompt-caching-will-save-developers-a-fortune/

https://towards-agi.medium.com/how-to-use-claude-prompt-caching-and-ditch-rag-1837add5a733

发布

暂无评论

创作场景

成本直降 90%、延迟缩短 80%！Anthropic 将 API 玩出了新花样，网友：应该成为行业标配

提示词缓存价格

功能本身确实备受期待

评论

蔚来汽车智能座舱接入通义大模型，并使用通义灵码全面提效

21日报名截止！CommunityOverCode Asia 2025议题征集倒计时

金融行业数字化转型破局：WhaleScheduler如何重塑万级任务调度体系？

走进建宁水务，探索企业AI+财务数智转型未来

一年撸完百万行代码，企业微信的全新鸿蒙NEXT客户端架构演进之路

Unity 广告质量监测工具免费开放三大指标破解变现与体验的平衡难题

3月报|DolphinScheduler项目进展一览

深入研究：1688店铺所有商品API详解

HAHM 哈姆真能让咱暴富？先别急，听我唠唠

利用 DeepSeek-R1 模型和计算机视觉微调模型实现马铃薯叶片疾病识别和分类

人工智能与数字双胞胎：如何通过虚拟模型实现智能工厂管理？

互联网服务行业怎么定义？需要用到堡垒机吗？

AI超级计算机来了

教学资源管理系统的运营维护

中原银行实时场景企业级解决方案

15~30K，3年以上golang开发经验

秘密任务 1.0：为什么 DTO 是 API 设计效率和安全性的秘密武器？

图床

暖春启幕，巨擘齐聚！2025慕尼黑上海电子展开幕首日盛况直击

DeepSeek深度揭秘HAHM商业模式的竞争优势分析

企业数字化转型失败频率为什么这么高？

数据安全责任担当：百度连续两年获CCIA数安委最高级试点单位

政府域名是什么？政府域名怎么注册？一文读懂

修改下内存配置，DolphinScheduler CPU飙升问题秒解决

基于 RAG 和 Dify 的生产级电话销售话术生成工具

书写API文档的最佳实践

从理论到落地：MCP 实战解锁 AI 应用架构新范式 | 免费领取 78 页完整 PPT

五个信创小知识汇总-行云管家

全面揭秘HAHM哈姆点评，HAHM能称王炸项目？哈姆掘金数字经济，共创财富未来

TextIn ParseX文档解析参数使用指南（第一期）

大模型落地的关键：如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台

创作场景

成本直降 90%、延迟缩短 80%！Anthropic 将 API 玩出了新花样，网友：应该成为行业标配

提示词缓存价格

功能本身确实备受期待

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载