写点什么

Anthropic 发布 Claude 2.1 大模型,提供更宽的上下文窗口并支持 AI 工具

作者:Andrew Hoblitzell

  • 2023-12-14
    北京
  • 本文字数:1146 字

    阅读完需:约 4 分钟

大小:550.38K时长:03:07
Anthropic 发布 Claude 2.1 大模型,提供更宽的上下文窗口并支持 AI 工具

据 Anthropic 称,最新版本的 Claude 大模型为企业提供了许多“关键特性方面的进步,包括行业领先的 200K token 上下文窗口、模型幻觉率显著降低、系统提示词以及我们新开发的测试功能:支持外部工具”。Anthropic 还宣布了降价措施,以提升各款模型用户的成本效益。

 

增强的上下文窗口是 Claude 2.1 的一项亮点特性,其拥有 200,000 个 token 的容量,超过了 OpenAI 的 GPT-4,后者提供了 128,000 个 token 的窗口。Anthropic 表示,与之前的模型相比,新模型输出虚假陈述的可能性更小。Claude 2.1 会试图避免不正确的答案并承认一些问题存在不确定性,它输出相关答案时一般会选择提出质疑,而不是提供不正确的信息。Anthropic 表示,该模型输出的错误答案减少了 30%,并且模型错误地作出缺乏信源的判断的比率大大降低。



另一个值得注意的新增特性是 Claude 2.1 使用工具并与 API 交互的能力。该功能让模型能够利用计算器、数据库等外部资源,甚至执行网络搜索来更有效地响应查询。它还可以集成到用户的技术栈中,从而在各个领域中实现更多样化的应用。

 

此外,Claude 2.1 引入了系统提示词,使用户能够为其请求设置特定的上下文。此功能可确保模型的响应更加结构化且前后一致。现在模型的价格定为输入的提示词每百万 token 8 美元,模型输出则是每百万 token 24 美元,这样包括开发人员和企业在内的很多用户群体都能负担得起了。

 

一些用户对新模型的评价褒贬不一。从积极的一面来看,一些用户发现 Claude 2.1 非常适合聊天和摘要等任务,并赞扬了它的进步和功能改进,特别是在摘要任务方面。然而,其他用户也对该模型的拒绝响应情况和严格的审查表示失望,一些用户认为这让这款工具的实用性和自主性打了折扣。此外,由于严格的安全协议和内容指南,人们担心 Claude 在处理某些内容(例如学术或研究材料)方面存在局限性。



发现:

  • 在 200K 个 token(近 470 页)的情况下,Claude 2.1 能够回忆起某些文档级深度的事实

  • 文档最顶部和最底部的事实被回忆的准确率接近 100%

  • 位于文档顶部的事实的回忆性能低于底部(类似于 GPT-4)

  • 从 ~90K token 开始,文档底部的回忆性能开始变得越来越差

  • 无法保证短上下文长度下的性能 - Greg Kamradt


Anthropic 及时推出 Claude 2.1 的时机恰逢 OpenAI 的内部冲突时期,后者导致 ChatGPT Plus 订阅暂停购买,首席执行官 Sam Altman 也陷入了风波。尽管如此,Devin Coldewey 写道,“不管怎样,GPT-4 仍然是代码生成领域的黄金标准,Claude 处理输入请求的方式与竞争对手是不一样的,有些更好,有些更差。”

 

想要了解更多关于 Claude 2.1 细节的用户可以参考 Anthropic 网站上的模型介绍页面。 Anthropic 还制作了一个示例存储库,演示如何使用工具功能。

 

原文链接

https://www.infoq.com/news/2023/11/anthropic-announces-claude-2-1/

2023-12-14 12:575632

评论

发布
暂无评论
发现更多内容

Parallels Desktop 19 虚拟机 一键激活 无需关闭sip

繁星

pd虚拟机 Parallels Desktop 19 pd虚拟机 19

深入理解 Dubbo 协议的调试方法与实践

Apifox

Java 程序员 dubbo 后端 RPC

安全审计 合约审计:代币开发公司的一个关键方面

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 NFT开发

犀牛Rhino 8 for Mac(3D建模软件)

展初云

Mac 建模软件 Rhino 犀牛

如何在嵌入式软件开发的过程中使用DevSecOps方法,提升开发效率与安全性

龙智—DevSecOps解决方案

DevOps DevSecOps

观测云产品更新 | 单点登录新增 OIDC / Oauth2.0 协议、数据转发优化、场景优化等

观测云

可观测性 单点登录 #数据分析

探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?

GPU算力

人民网《外企谈信心》| Denodo:加强数据管理技术合作 护航数字经济高质量发展

科技汇

日常数字生活中,手机里的隐私信息是如何被保护的?

最新动态

治理效率提升77%!揭秘基于DataLeap实时健康分的最佳实践

字节跳动数据平台

数据库 数据治理 数据安全 数据研发 企业号11月PK榜

一站式IT统一运维管理平台有哪些?大家都在用哪个?

行云管家

IT运维 运维管理 统一运维

龙芯浏览器是哪家公司开发的?支持信创吗?

行云管家

浏览器 信创 国产化 龙芯浏览器

MegEngine 9-10 双月报:新版本发布,AI 生态升级,不容错过!

MegEngineBot

深度学习 开发者 开源社区 MegEngine

Kontakt Factory Library 2(Kontakt原厂音色库)

展初云

Mac软件 音色库 Kontakt

深度开发者故事|API Explorer 助力教育行业 一站式搭建实验环境

华为云PaaS服务小智

云计算 软件开发 华为云

jar包的精细化运营,Java模块化简介 | 京东云技术团队

京东科技开发者

Java Java9 模块化 jar包

全网累计销量TOP 1的TCL超薄嵌入式冰箱,跟着选0出错!

科技热闻

您的代理记账企业的数字化保卫和合作伙伴-智慧云

知者如C

数智化采购平台覆盖间接采购全流程,现金流优化的“小成大就”

用友BIP

数智采购

组态软件特点及工控组态软件应用

2D3D前端可视化开发

物联网 组态软件 PLC 工业控制系统 web组态编辑器

After Effects 2024 for Mac(ae视频特效制作工具)

展初云

Mac软件 视频编辑 AE After Effects

机械加工行业云MES解决方案

万界星空科技

工业互联网 制造业 生产管理系统 mes 机械臂

万界星空科技MES与WMS如何集成的?

万界星空科技

数字化转型 工业互联网 wms mes 3D仓库

Nginx 知识点一网打尽:动静分离、压缩、缓存、跨域、高可用、性能优化

郑在暴富中

nginx 高可用 反向代理

【实践篇】一次Paas化热部署实践分享 | 京东云技术团队

京东科技开发者

热部署 PaaS平台化能力 企业数字化 PaaS 平台 企业号11月PK榜 Paas化

企业数智化领先实践,学得会!

用友BIP

数智化转型

数智化营销——企业会员私域运营的成功路径

用友BIP

数智营销

可跨平台数据库多连管理工具:Navicat Premium 16 中文版

繁星

数据库管理 Navicat Premium 16

KubeEdge-Ianvs v0.2 发布:终身学习支持非结构化场景

华为云开发者联盟

云计算 云原生 后端 华为云 华为云开发者联盟

PCB设计安规丨电气间隙与爬电距离要点

华秋电子

vivo 网络端口安全建设技术实践

vivo互联网技术

网络端口风险治理 端口扫描 流量行为基线 端口管理规范 漏洞扫描平台

Anthropic 发布 Claude 2.1 大模型,提供更宽的上下文窗口并支持 AI 工具_生成式 AI_InfoQ精选文章