写点什么

谷歌发布首个“王炸”推理大模型,剑指 o1:推理速度碾压其他大模型,水平堪比理科博士

  • 2024-12-20
    北京
  • 本文字数:1607 字

    阅读完需:约 5 分钟

大小:740.01K时长:04:12
谷歌发布首个“王炸”推理大模型,剑指o1:推理速度碾压其他大模型,水平堪比理科博士

在 OpenAI “12 天马拉松”发布的第 11 天,他们平平无奇的发布又被谷歌抢了风头。

 

刚刚,谷歌发布了实验性的“Gemini 2.0 Flash Thinking”模型,它以令人印象深刻的推理能力而闻名,可以“明确地展示自己的思维”来解决复杂问题,其水平与物理、化学和生物学博士生相当。

 

谷歌 CEO Sundar Pichai 在社交网络 X 上的一篇文章中写道,这是“我们迄今为止最周到的模型,”还配上了笑脸。

 

顾名思义,它建立在“2.0 Flash 的速度和性能”之上。谷歌表示,它“经过训练可以大声思考”,从而“具有更强的推理性能”。 

 

为了与 OpenAI 的 o1 竞争,谷歌 DeepMind 首席科学家 Jeff Dean 在 X 上的一条发文中表示,该模型“经过训练,可以使用思维来加强其推理能力”,同时还受益于速度更快的 Gemini Flash 2.0 模型。



Dean 分享的演示展示了 Gemini 2.0 Flash Thinking 如何通过“思考”一系列步骤,然后再提供解决方案,从而解答物理问题。谷歌分享了几个跨物理和概率的演示:

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        Gemini 2.0 Flash Thinking 现已在 Google AI Studio 和 Vertex AI 中推出。它在 Chatbot Arena LLM 排行榜上首次亮相,位居“所有类别第一” 。就在昨天,谷歌在 Gemini 应用程序中推出了 2.0 Experimental Advanced,Gemini-Exp-1206 也位居排行榜榜首。

         


        这不一定是人类那样的“推理”,但这意味着机器将指令分解为可以产生更强结果的更小的任务。

         

        另一个示例由 Google 产品负责人 Logan Kilpatrick 发布,展示了该模型如何推理解决涉及视觉和文本元素的问题。“这只是我们推理之旅的第一步,”Kilpatrick 说。


        更易于理解和更透明的推理

         

        在开发者文档中,谷歌解释说,“思考模式的响应推理能力比基础版 Gemini 2.0 Flash 模型更强”,而基础版 Gemini 2.0 Flash 模型是谷歌最新、最出色的模型,仅在 8 天前发布。

         

        新模型仅支持 32000 个标记输入(约 50-60 页文本),并且每个输出响应可以产生 8000 个标记。在 Google AI Studio 的侧面板中,该公司声称它最适合“多模式理解、推理”和“编码”。

        该模型的训练过程、架构、许可和成本的完整细节尚未公布。目前,它在 Google AI Studio 中显示每个令牌的成本为零。

         

        与 OpenAI 的竞争推理模型 o1 和 o1 mini 不同,Gemini 2.0 允许用户通过下拉菜单访问其逐步推理,从而更清晰、更透明地了解模型如何得出结论。



        通过允许用户了解决策过程,Gemini 2.0 解决了人们对人工智能作为“黑匣子”运行的长期担忧,并使该模型(许可条款仍不明确)与竞争对手的其他开源模型相提并论。

         

        一些开发者对该模型的早期简单测试表明,它可以正确而快速地(1 到 3 秒内)回答一些对于其他 AI 模型来说非常棘手的问题,例如计算“Strawberry”一词中的 R 的数量。(见上面的截图)。 

        原生支持图像上传和分析


        Gemini 2.0 Flash Thinking 是对竞争对手 OpenAI o1 系列的进一步改进,旨在处理跳跃中的图像。

         

        o1 最初是纯文本模型,但后来扩展到包括图像和文件上传分析。目前,这两种模型也只能返回文本。

         

        根据开发者文档显示,Gemini 2.0 Flash Thinking 目前还不支持与谷歌搜索落地,也不支持与其他谷歌应用和外部第三方工具集成。

         

        Gemini 2.0 Flash Thinking 的多模式能力扩展了其潜在用例,使其能够应对结合不同类型数据的场景。

         

        例如,在一项测试中,该模型解决了一个需要分析文本和视觉元素的难题,展示了其跨格式集成和推理的多功能性。

         

        开发人员可以通过 Google AI Studio 和 Vertex AI 利用这些功能,其中模型可供实验。

         

        随着人工智能领域的竞争日趋激烈,Gemini 2.0 Flash Thinking 可能标志着问题解决模型新时代的开始。它能够处理多种数据类型、提供可视化推理并大规模执行,这使它成为推理人工智能市场的有力竞争者,可与 OpenAI 的 o1 系列及其他产品相媲美。

         

        参考链接:

        https://lmarena.ai/?leaderboard

        https://analyticsindiamag.com/ai-news-updates/openai-sets-the-stage-for-agentic-ai-with-chatgpt-desktop-apps-for-mac-and-windows/

        2024-12-20 06:199053
        用户头像
        李冬梅 加V:busulishang4668

        发布了 983 篇内容, 共 588.4 次阅读, 收获喜欢 1143 次。

        关注

        评论

        发布
        暂无评论
        发现更多内容

        和ChatGPT结对完成VS CODE插件项目分享

        Marvin Ma

        vscode 插件 插件开发 ChatGPT

        什么是 GPT-4,它是如何工作的?ChatGPT 的新模型解释

        外贸IT程序客

        ChatGPT 人工智能ChatGPT 吗? ChatGPT4

        ChatGPT 应用汇总及操作手册

        外贸IT程序客

        ChatGPT 人工智能ChatGPT 吗? ChatGPT4

        ZincSearch 一款 Elasticsearch 的轻量级替代品

        宇宙之一粟

        Go 三周年连更 ZincSearch

        会思考的狗、聪明的马和随机鹦鹉

        FinClip

        指导机器人如何翻译狗叫笑话

        FinClip

        12秒内AI在手机上完成作画!谷歌提出扩散模型推理加速新方法

        Openlab_cosmoplat

        人工智能 机器学习 AI绘画

        ChatGPT 在 Python WEB 的Prompt项目分享

        Marvin Ma

        Python 开发 ChatGPT

        ChatGPT 可以写你的论文,但你应该使用它吗?

        外贸IT程序客

        ChatGPT 人工智能ChatGPT 吗? ChatGPT4

        ChatGPT 有字符限制吗?这是绕过它的方法

        外贸IT程序客

        ChatGPT 人工智能ChatGPT 吗? ChatGPT4

        什么是 ChatGPT Plus,您应该得到它吗?

        外贸IT程序客

        ChatGPT 人工智能ChatGPT 吗? ChatGPT4

        极客星球|数据分析引擎黑马ClickHouse技术研究与实践

        MobTech袤博科技

        轻量级协作任务管理看板

        顿顿顿

        敏捷开发 任务管理 敏捷开发管理工具 看板工具 scrum工具

        iOS MachineLearning 系列(7)—— 图片相似度分析

        珲少

        副业做得好,搞钱没烦恼:盘点那些靠谱的程序员副业!

        禅道项目管理

        程序员 副业 技术博客

        【源码分析】【seata】at 模式分布式事务 -xid隐式传递

        如果晴天

        源码分析 分布式事务 seata spring-cloud Seata框架

        如何修复 ChatGPT 的内部服务器错误消息

        外贸IT程序客

        ChatGPT 人工智能ChatGPT 吗? ChatGPT4

        这8个摸鱼神器,千万别让你老板知道!

        引迈信息

        效率 程序员 工具 低代码 JNPF

        iOS MachineLearning 系列(8)—— 图片热区分析

        珲少

        场景篇-ChatGPT帮我实现发送公众号推文

        Marvin Ma

        微信公众号 代码生成 ChatGPT

        场景篇-ChatGPT帮我搭建博客网站并自动写博客!

        Marvin Ma

        博客 ChatGPT

        小程序化数字人:构建智能化的门户解决方案

        FinClip

        软件测试/测试开发丨面试题之Linux 与 Python 编程篇

        测试人

        软件测试 面试题 测试开发

        人工智能训练数据集:误区、挑战与应对方法

        来自四九城儿

        龙蜥开发者说:亲历从基础设施构建到系统质量保障,龙蜥未来可期 | 第 19 期

        OpenAnolis小助手

        Linux 开源 sig 龙蜥开发者说 联通数科

        eBPF的发展演进---从石器时代到成为神(四)

        统信软件

        操作系统 Linux Kenel

        性能大PK count(*)、count(1)和count(列)

        架构精进之路

        MySQL 数据库 后端 innodb 三周年连更

        数据标注,优化模型辅助标注、Label 库管理|ModelWhale 版本更新

        ModelWhale

        云计算 编程 模型 数据标注 数据门户

        Apache Doris 1.2.4 Release 版本正式发布|版本通告

        SelectDB

        数据库 大数据 数据分析 Doris 联邦查询和分析

        中国厨房更净一步:一场科技“下凡”带来的方太式浪漫

        脑极体

        谷歌发布首个“王炸”推理大模型,剑指o1:推理速度碾压其他大模型,水平堪比理科博士_Google_李冬梅_InfoQ精选文章