Anthropic 发布 Claude 2.1 大模型，提供更宽的上下文窗口并支持 AI 工具_生成式 AI_InfoQ精选文章



大小：550.38K时长：03:07

Anthropic 发布 Claude 2.1 大模型，提供更宽的上下文窗口并支持 AI 工具

据 Anthropic 称，最新版本的 Claude 大模型为企业提供了许多“关键特性方面的进步，包括行业领先的 200K token 上下文窗口、模型幻觉率显著降低、系统提示词以及我们新开发的测试功能：支持外部工具”。Anthropic 还宣布了降价措施，以提升各款模型用户的成本效益。

增强的上下文窗口是 Claude 2.1 的一项亮点特性，其拥有 200,000 个 token 的容量，超过了 OpenAI 的 GPT-4，后者提供了 128,000 个 token 的窗口。Anthropic 表示，与之前的模型相比，新模型输出虚假陈述的可能性更小。Claude 2.1 会试图避免不正确的答案并承认一些问题存在不确定性，它输出相关答案时一般会选择提出质疑，而不是提供不正确的信息。Anthropic 表示，该模型输出的错误答案减少了 30%，并且模型错误地作出缺乏信源的判断的比率大大降低。

另一个值得注意的新增特性是 Claude 2.1 使用工具并与 API 交互的能力。该功能让模型能够利用计算器、数据库等外部资源，甚至执行网络搜索来更有效地响应查询。它还可以集成到用户的技术栈中，从而在各个领域中实现更多样化的应用。

此外，Claude 2.1 引入了系统提示词，使用户能够为其请求设置特定的上下文。此功能可确保模型的响应更加结构化且前后一致。现在模型的价格定为输入的提示词每百万 token 8 美元，模型输出则是每百万 token 24 美元，这样包括开发人员和企业在内的很多用户群体都能负担得起了。

一些用户对新模型的评价褒贬不一。从积极的一面来看，一些用户发现 Claude 2.1 非常适合聊天和摘要等任务，并赞扬了它的进步和功能改进，特别是在摘要任务方面。然而，其他用户也对该模型的拒绝响应情况和严格的审查表示失望，一些用户认为这让这款工具的实用性和自主性打了折扣。此外，由于严格的安全协议和内容指南，人们担心 Claude 在处理某些内容（例如学术或研究材料）方面存在局限性。

发现：
在 200K 个 token（近 470 页）的情况下，Claude 2.1 能够回忆起某些文档级深度的事实
文档最顶部和最底部的事实被回忆的准确率接近 100%
位于文档顶部的事实的回忆性能低于底部（类似于 GPT-4）
从 ~90K token 开始，文档底部的回忆性能开始变得越来越差
无法保证短上下文长度下的性能 - Greg Kamradt

Anthropic 及时推出 Claude 2.1 的时机恰逢 OpenAI 的内部冲突时期，后者导致 ChatGPT Plus 订阅暂停购买，首席执行官 Sam Altman 也陷入了风波。尽管如此，Devin Coldewey 写道，“不管怎样，GPT-4 仍然是代码生成领域的黄金标准，Claude 处理输入请求的方式与竞争对手是不一样的，有些更好，有些更差。”

想要了解更多关于 Claude 2.1 细节的用户可以参考 Anthropic 网站上的模型介绍页面。 Anthropic 还制作了一个示例存储库，演示如何使用工具功能。

原文链接：

https://www.infoq.com/news/2023/11/anthropic-announces-claude-2-1/

评论

发布

暂无评论

云数据库 TiDB 试用实践——部署&运维

TiDB 社区干货传送门

Apipost如何快速生成并分享API实时文档

MASA Stack 1.0 发布会讲稿——实践篇

MASA技术团队

.net MASA MAUI MASA Stack

java核心技术-多线程基础

架构实战营第 10 期 - 模块六：拆分电商为微服务

「架构实战营」

海外多语言数字货币交易app系统开发搭建

开发微hkkf5566

迈铸半导体完成1500万Pre A+轮融资，用于实现规模化量产

硬科技星球

云数据库 TiDB试用

TiDB 社区干货传送门

云端智创 | 基于视频AI原理的音视频智能处理技术

阿里云CloudImagine

云计算音视频

七年的开源商业化探索，PingCAP 为什么选了这样一条路？

TiDB 社区干货传送门

数据库前沿趋势

2023最好用的10个开发者工具！每一个都让你效率翻倍

工具测试后端

【2.3-2.10】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动优质创作周报

代码质量与安全 | 开发人员必备的安全编码实践指南

龙智—DevSecOps解决方案

代码安全静态代码扫描

剖析字节案例，火山引擎A/B测试DataTester如何“嵌入”技术研发流程

字节跳动数据平台

大数据 AB testing实战企业号 2 月 PK 榜

软件测试/测试开发 | App自动化之dom结构和元素定位方式（包含滑动列表定位）

软件测试自动化测试测试开发

模型推理耗时降低98%！PaddleTS又双叒叕带来重磅升级！

飞桨PaddlePaddle

ITSM | 限时优惠，帮助您的团队终结不良服务管理！

龙智—DevSecOps解决方案

Jira ITSM IT服务管理

全板电镀与图形电镀，到底有什么区别？

云原生场景下，如何缓减容器隔离漏洞，监控内核关键路径？

Linux 云原生服务器

# 文盘Rust -- rust 连接云上数仓 starwift

TiDB 社区干货传送门

云数据库 TiDB 体验——部分故障问题与解决方法

TiDB 社区干货传送门

版本测评新版本/特性解读 6.x 实践

在线研讨会邀请 | 赋能“大”研发，助力“快”交付

龙智—DevSecOps解决方案

版本控制线上研讨会研讨会数字资产管理

选择等保测评机构需要注意的几个点-行云管家

等保等级保护等保测评

br备份时排除某个库

TiDB 社区干货传送门

实践案例备份 & 恢复

辞旧岁立新年 | 展望前端工程师的2023

字节跳动终端技术

云原生前端前端工程师

TiKV RocksDB读写原理整理

TiDB 社区干货传送门

TiDB 底层架构 TiKV 底层架构

JVM说--直接内存的使用

京东科技开发者

JVM io nio 虚拟机企业号 2 月 PK 榜

【SOP】新扩容节点与集群版本不一致处理

TiDB 社区干货传送门

实践案例版本升级管理与运维故障排查/诊断扩/缩容

PingCAP黄东旭：Serverless是数据库的未来形态

TiDB 社区干货传送门

数据库前沿趋势

龙智宣布与Incredibuild建立战略合作伙伴关系

龙智—DevSecOps解决方案

DevSecOps 加速编译