写点什么

已卷疯!距上次更新仅隔三月,Anthropic 又发布 Claude 3.5 Sonnet,可是生成笑话得靠抄袭?

  • 2024-06-21
    北京
  • 本文字数:2511 字

    阅读完需:约 8 分钟

大小:1.21M时长:07:01
已卷疯!距上次更新仅隔三月,Anthropic 又发布 Claude 3.5 Sonnet,可是生成笑话得靠抄袭?

整理 | 傅宇琪、核子可乐


本周四,Anthropic 宣布推出其最新 AI 语言模型 Claude 3.5 Sonnet,这是基于 3 月发布的 Claude 3 基础模型构建的全新“3.5”模型家族的首位成员。Claude 3.5 能够撰写文本、分析数据并编写代码,拥有长达 20 万 token 长上下文窗口的 Claude 3.5,目前已经在 Claude 网站及 API 上对外开放。随后,亚马逊云科技宣布 Claude 3.5 Sonnet 正式在 Amazon Bedrock 可用。


从目前的市场表现来看,Anthropic 的新成果似乎得到了外部用户的广泛好评。独立 AI 研究员 Simon Willison 在 X 上写道,“这套模型真的非常出色。它速度更快、价格只有 Opus 的一半,但性能却实现了类似从 GPT-4 Turbo 到 GPT-4o 的飞跃,因此我愿称之为最好的新款整体模型。”

性能超越 GPT-4o?


根据 Anthropic 的介绍,Claude 3.5 Sonnet 在部分基准测试(包括涵盖本科阶段知识的 MMLU、小学数学问题的 GSM8K 以及编程技能的 HumanEval)上的表现,已经等同甚至超越了 GPT-4o 及 Gemini 1.5 Pro 等市面上的顶尖竞争对手。

以两倍的速度实现先进的智能水平


Claude 3.5 Sonnet 具备先进的智能水平,运行速度可达到 Claude 3 Opus 的两倍,在具有研究生水平的推理能力(GPQA)、本科水平知识(MMLU)和编程能力(HumanEval)方面设立了新的行业基准;在理解细微差别、幽默和复杂指令方面表现有显著的提升;在撰写高质量内容时能表现出更自然、更易理解的语气,生成引人入胜和有说服力的内容,简化写作工作流程,提升叙事能力。


Claude 3.5 Sonnet 非常适合处理复杂任务,加上性能的提升与出色的成本效益,使其成为应对包括敏感语境的客户支持和协调多步骤工作流程编排的理想选择。


在内部代理编码评估中,Claude 3.5 Sonnet 解决了 64% 的问题,超过了解决 38% 问题的 Claude 3 Opus。我们通过评估测试了该模型在给定自然语言描述过程中的改进,包括修复漏洞或添加功能到开源代码库的能力。当给予提示并提供相关工具时,Claude 3.5 Sonnet 可以独立编写、编辑和执行代码,并具备出色的复杂推理和故障排除能力。它能够轻松处理代码翻译,在更新已有的应用程序和迁移代码库方面表现优异。

极其先进的“视觉”能力


Claude 3.5 Sonnet 模型“具备”极其强大的“视觉”能力,在标准视觉基准测试中超过了 Claude 3 Opus。这些显著的进步在处理视觉推理的任务中极为明显,如解释图表、图片及其他需求。Claude 3.5 Sonnet 可以准确地从不完美的图像中转录文本,这对于零售、物流和金融服务等领域客户尤为重要。在这些领域,生成式 AI 从图像、图形或插图中能获得比单纯文本中更多的洞察。


Claude 3.5 Sonnet 还可以用于自动化视觉数据处理任务,提取有价值的信息,增强医疗保健、金融服务、媒体和娱乐工作负载中的数据分析。

对安全性和隐私的承诺


Claude 模型经过了严格的测试和训练,以减少滥用。虽然 Claude 3.5 Sonnet 在智能方面实现了质的飞跃,但 Anthropic 的红队 (red team,安全团队,最大化模拟真实世界的攻击) 评估得出结论,Claude 3.5 Sonnet 仍处于 ASL-2 (AI Safety Levels)级别。


履行对安全性和透明度的承诺,Anthropic 与外部专家合作,不断测试并完善这一最新模型的安全机制,并于最近向英国人工智能安全研究所提供了 Claude 3.5 Sonnet 部署前的安全评估。英国人工智能安全研究所完成对 Claude 3.5 Sonnet 的测试后,与美国人工智能安全研究所共享了测试结果。


当考虑到滥用的问题时,Anthropic 还整合了外部专家的政策反馈,以确保评估的可靠性。外部资源的参与帮助团队提升了评估 Claude 3.5 Sonnet 时对各种滥用类型的判断能力。

引入新功能后更具性价比


对于普通用户来说,3.5 版本中更值得关注的可能当属名为“Artifacts”的新增界面功能,它允许人们在对话的同时,在专用窗口中与 Claude 生成的内容(例如代码、文本和网页设计)进行交互。这一新功能也能够帮助人们在长时间会话中暂且搁置部分事情,而不必担心内容丢失。同时,Anthropic 将 Artifacts 视为推动 Claude.ai(其网页界面)成为团队协作工作空间的第一步。

“Artifacts”界面示例。向 3.5 Sonnet 下达了一项编写小游戏的任务,它创建出了能够实际运行的 Python 代码,代码结果就显示在聊天记录右侧的全新“Artifacts”窗口当中。


Anthropic 表示,Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。在性能大致相当的情况下,3.5 的成本也更低廉——在 API 中,新的 3.5 模型每百万输入 token 定价 3 美元,每百万输出 token 定价 15 美元。相比之下,Opus 每百万输入 token 定价 15 美元,每百万输出 token 定价 75 美元。


除了网站和 API 之外,Claude 3.5 Sonnet 还可以通过 Claude iOS 应用程序提供访问,付费用户将获得更高的用量上限。同时,该模型也通过亚马逊 Beckrock 服务及 Google Cloud 的 Vertex AI 平台对外开放。

试用感受


在测试中,Claude 3.5 Sonnet 似乎的确是一套称职且领先的 AI 语言模型。它的输出速度非常快,而且在相对随意的非严谨测试当中,3.5 Sonnet 以相当不错的表现回答了“Magenta 问题”。

当被问到“如果不存在 Magenta 镇,「Magenta」(洋红色)一词还会被用于命名颜色吗?”时,Claude 3.5 Sonnet 给出了以上输出。这种颜色的确以一场战役命名,而这场战役正是在意大利的 Magenta 镇上打响。


Claude 3 Opus 面对同一问题做出的回答。


Claude 2 面对同一问题做出的回答。


要求 Claude 3.5 Sonnet 编写五个关于爸爸的原创笑话,但感觉好像有抄袭的涉嫌。当我们提出质疑后,它又从互联网上抄了另外几个笑话。

Claude 3.5 Sonnet 输出的五个关于爸爸的原创笑话。


大语言模型的所谓智能实际上只是对其训练数据范围的延伸。要想在大模型已经消化的主题之上实现正确的“推理”(即根据存储在其神经网络中的数据 0 合成出新的排列),往往离不开人类的参与和引导。

Anthropic 计划在 2024 年晚些时候发布 Claude 3.5 Haiku 和 Claude 3.5 Opus 等 3.5 家族新成员。此外,该公司还在探索如何将新功能与企业应用需求相集成,从而对 Claude AI 平台做出进一步更新。


参考链接:


https://arstechnica.com/information-technology/2024/06/anthropics-latest-best-ai-model-is-twice-as-fast-and-still-terrible-at-dad-jokes

2024-06-21 16:427230

评论

发布
暂无评论
发现更多内容

更智能的广告素材生成!看A/B测试如何驱动AIGC素材调优

字节跳动数据平台

A/B 测试 对比试验

软件测试学习笔记丨Allure2报告中添加测试用例步骤

测试人

软件测试

打造一份属于你自己的 ChatGPT全面指南

蓉蓉

openai ChatGPT GPT-4

深度解读UUID:结构、原理以及生成机制

EquatorCoco

前端 前端开发 uuid

autocad2022序列号和密钥 autocad2022中文版详细图文安装教程

Rose

AutoCAD2022序列号 autocad2022秘钥 autocad2022破解版 cad2022Mac版

定时任务优化总结(从半个小时优化到秒级)

京东科技开发者

高效存储方案:Amazon S3 Express One Zone 正式推出

亚马逊云科技 (Amazon Web Services)

AI Infra组年度总结及2024重点方向预告

中国信通院AI Infra工作组

新手程序员怎么在复杂的代码中寻找bug ?

小魏写代码

如何借助API提升产品设计的用户体验

伤感汤姆布利柏

企业如何通过数据资产化,激活“数据要素x”,乘出新质生产力

袋鼠云数栈

大数据 数据资产 数据要素 数据资产管理 数据资产化

[每日秒懂] 软件架构风格

dinstone

架构 微服务架构 分层架构 领域驱动 架构风格

中国信通院“金融业人工智能平台”首轮评估测试正式启动报名

中国信通院AI Infra工作组

#人工智能 金融\行业

《2023 IT行业项目管理调查报告》新鲜出炉!助力IT行业持续稳步发展

禅道项目管理

项目管理 IT 调查报告 行业趋势

官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会

Apache Flink

大数据 flink 实时计算

作为程序员需要配蓝光眼镜吗?

小齐写代码

你可能误解了性能测试

老张

性能测试 性能瓶颈

【稳定性】稳定性建设之依赖设计

京东科技开发者

日本股票盘搭建

GangguHK

中国信通院可信人工智能基础平台(AI Infra)第七批评估正式启动

中国信通院AI Infra工作组

阿里云 EMR Serverless Spark 版免费邀测中

阿里云大数据AI技术

大数据 spark 数据开发

Beyond Compare 4 for Mac永久激活秘钥 Beyond compare 4中文汉化安装包

Rose

百度智能云加速「低代码+大模型」融合,爱速搭位居 2023 年 IDC 低代码/无代码领导者象限

百度Geek说

AI 百度智能云

两场CVPR 2024 研讨会,一探大模型闭环真身

飞桨PaddlePaddle

百度 BAIDU 百度飞桨 文心一言 文心大模型

一文让你简单了解跨境电商需要购买堡垒机的几大原因

行云管家

网络安全 电商 数据安全 堡垒机 跨境电商

React memo的原理、实践与思考

京东科技开发者

IPQ9554 vs IPQ8074: Which Chipset Reigns Supreme in the World of Networking and Connectivity?

wifi6-yiyi

5G WiFi7 6G

全面测试服务:从人员外包到工具和平台的综合解决方案

霍格沃兹测试开发学社

使用appuploder流程笔记

雪奈椰子

已卷疯!距上次更新仅隔三月,Anthropic 又发布 Claude 3.5 Sonnet,可是生成笑话得靠抄袭?_AI&大模型_傅宇琪_InfoQ精选文章