AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

Claude 3 终于来了,最强大模型易主?不,网友亲测了才算数!

  • 2024-03-05
    北京
  • 本文字数:1791 字

    阅读完需:约 6 分钟

大小:801.61K时长:04:33
Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!

3 月 5 日 ,OpenAI 的最大竞争对手 Anthropic 刚刚发布了新一代 AI 大模型系列 —— Claude 3。该系列包含三个模型,按能力由弱到强排列分别是:Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus。

 

比 GPT-4 更强?

 

Anthropic 表示,Claude 3 Haiku 是最快的模型,适用于需要即时响应的场景。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k tokens)。

 

Claude 3 Sonnet 在智能和速度之间提供平衡,适合企业工作负载,如知识检索或销售自动化。

 

而 Claude 3 Opus 则是能力最强的模型,实现了接近人类的理解能力,适用于高度复杂的任务,在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。

 


从 Anthropic 给出的 benchmark 测试数据来看,Opus 在多个指标上超过了 GPT-4。

 

在此之前,GPT-4 的综合性能全球绝对领先,能实测到的模型中只有这次 Claude 3 的上一代 Claude 2 超过了 GPT-3.5。

 

这次的 Claude 3,除了速度、理解、效率等综合性能之外,这次在长文本上有亮点,可以支持 200K Tokens 的上下文长度,另外也可以支持图像和文件输入了。

 


再值得参考的一点是价格:Opus 输入 15 刀/百万 tokens,输出 75 刀/百万 tokens;Sonnet 输入 3 刀/百万 tokens,输出 15 刀/百万 tokens;Haiku 输入 0.25 刀/百万 tokens,输出 1.25 刀/百万 tokens。

 

Anthropic 还放出了 42 页的技术报告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。

 


报告地址:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

 

在报告中,我们能看到 Claude 3 系列模型的训练数据、评估标准以及更详细的实验结果。

 


Anthropic 将 Claude 3 系列模型在推理、阅读理解、数学、科学和编程能力上,与竞品模型展开了比较,结果显示不仅超越了其他家模型,还在大多数情况下实现了新 SOTA。

 

效果好不好,还得看大家的测试结果

 

至于性能比较,虽然 Anthropic 表明自家模型比 GPT-4 更强,但很明显,大家对基准测试并不抱那么大的希望,“就像汽车厂商一样,他们肯定会说自家的车是最快最安全的。”

 

benchmark 已经不再那么具备参考意义,一是 Claude 3 比的是去年 3 月发出来的 GPT-4,二是选取指标上都会更“偏向”自己。

 


因此,不少网友用自己的方法进行了测试,来验证 Claude 3 是否有 Anthropic 宣传中的那么厉害。

 

其中一位网友说,第一眼感觉它比 GPT-4 好一点,比 Mistral 等好很多。比较特别的一件事情是,Claude 3 的回复似乎比之前的 LLM(大型语言模型)更人性化得多

 


“我知道现在你可能感觉不到,但你肯定会度过难关的。I know it may not feel like it right now, but you ARE going to get through this.”这句话中的 “ARE” 非常人性化,GPT-4 不会在不经提示的情况下用大写字母来强调。

 

下面这幅图,大家能看懂讲的是什么吗?

 


这是一位网友别出心裁的用 ASCII 进行提问,Claude 3 也用了 ASCII 进行回复。

 


“Claude 3 (mid) 现在也可以读取 ASCII 码了。我用 ASCII 询问一些问题,并要求它以 ASCII 形式回答。该死的,他们做到了。这是 GPT-4++级别哇!”

 

另外,在代码能力上,也有一些网友进行了测试。有位网友要求 Claude 3 画一副 3D 自画像,再渲染成代码,效果非常令人惊叹:

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00



    有一位名为 Ruben 的网友,专门设置了了一个测试来对比 Claude 3 和 ChatGPT 的能力。

     

    他给出了一个网站 UI 界面,要求 Claude 3 和 ChatGPT 将其转为代码。Claude 3 拒绝了,而 ChatGPT 成功的执行了。Claude 3 的道德标准太高了?!

     

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      还有一位企业家 Rishabh Srivastava,在 SQL-Eval 上对 Claude-3 进行了评估:https://github.com/defog-ai/sql-eval/tree/rishabh/claude-3,他得出的结论依然是 GPT-4 更好

       


      “比 Claude 2 好得多,但距离 GPT-4 还有一段路要走 对于 SQL 生成,Opus 具有 GPT-4 Turbo 级别的性能。Sonnet 具有与 3.5-turbo 类似的性能,但速度也慢大约 4 倍。GPT-4 仍然明显更好。

       


      这些测试结果,也许正如爱丁堡大学博士生符尧的分析:被评估的几个模型在 MMLU / GSM8K / HumanEval 等几项指标上基本没有区分度,真正能够把模型区分开的是 MATH 和 GPQA,“这些超级棘手的问题是 AI 模型下一步应该瞄准的目标”。


      🔥Claude 3 极简试用方式必须安排!戳链接即可通过  Amazon Bedrock 访问 Claude 3 👉立即体验

       

      2024-03-05 13:505709

      评论

      发布
      暂无评论
      发现更多内容

      自定义对象池在Caffeine框架中实践

      FunTester

      电商新宠:淘宝拍立淘API接口助力精准搜索商品信息

      技术冰糖葫芦

      API Explorer api 货币化

      深入了解 Docker:革命性的容器化技术

      霍格沃兹测试开发学社

      从IoTDB的发展回顾时序数据库演进史

      Apache IoTDB

      抓包神器wireshark安装保姆级教程

      霍格沃兹测试开发学社

      小米14 Ultra影像私享会在长春万象城成功举办

      极客天地

      Last Call!AWS、Shopee、点石科技专家齐聚 Milvus 老友汇 · 线下

      Zilliz

      开源社区 Meetup Milvus 向量数据库

      如何使用pgvector为RDS PostgreSQL构建专属ChatBot?

      阿里云瑶池数据库

      数据库 阿里云 数据库开发 ChatGPT

      云手机运营TikTok需要流量吗?

      Ogcloud

      云手机 海外云手机 tiktok云手机 云手机海外版 tiktok运营

      海外云手机怎样助力Tik Tok运营

      Ogcloud

      云手机 海外云手机 tiktok云手机 云手机海外版 tiktok运营

      ios ipa包上传需要什么工具

      运维工具如此割裂,九招帮你统一纳管

      观测云

      运维‘

      为什么向量数据库在 RAG 中至关重要?

      Zilliz

      大模型 Zilliz 向量数据库 rag

      精彩回顾 | 「AI 驱动增长,研发数智化升级」分享沙龙成功举办

      LigaAI

      AWS 技术分享 生成式AI 活动回顾 Amazon Bedrock

      如何在 Pytest 中添加日志记录

      霍格沃兹测试开发学社

      构建只涨不跌的DApp代币合约系统:LP分红项目开发详解

      区块链软件开发推广运营

      dapp开发 区块链开发 链游开发 NFT开发 公链开发

      智能推送SDK,你知道的东西太多了!

      MobTech袤博科技

      二维码使用技巧:自动填充信息,提高表单填写效率

      草料二维码

      二维码 草料二维码

      软件测试学习笔记丨什么是装箱和拆箱

      测试人

      软件测试

      碳实践 | 你真的会做碳数据收集么?入门必看!

      AMT企源

      碳管理 碳实践 碳资产

      从零基础到精通,抓包神器fiddler保姆级使用教程(一)

      霍格沃兹测试开发学社

      Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!_生成式 AI_Tina_InfoQ精选文章