QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

谷歌深夜祭出 Gemini 2.0 “硬刚”OpenAI,还让开发者免费试用!Agent 时代最强 AI 模型登场了?

  • 2024-12-12
    北京
  • 本文字数:2777 字

    阅读完需:约 9 分钟

大小:1.34M时长:07:47
谷歌深夜祭出Gemini 2.0 “硬刚”OpenAI,还让开发者免费试用!Agent时代最强AI模型登场了?

就在 OpenAI“12 天连续轰炸”的第五天,谷歌终于坐不住了。

 

刚刚,谷歌正式发布了 Gemini 2.0 系列人工智能模型的首个版本,该模型名为 Gemini 2.0 Flash,提供聊天版本供全球用户使用,同时还有一个实验版的模型可供开发人员免费使用,该版本具有文本转语音和图像生成功能。


据谷歌称,这是 Agent 时代迄今为止为最强大的 AI 模型,相比上一代 Gemini 模型,2.0 在速度上快两倍,并且比更大的“专业”版 Gemini 1.5 更加强大。此外,该版本带来了增强的性能、更多的多模态性和新的原生工具。

相比上一代模型,Gemini 2.0 增加了什么?

 

谷歌首席执行官 Sundar Pichai 在一份声明中表示:“如果 Gemini 1.0 致力于组织和理解信息,那么 Gemini 2.0 则致力于让信息变得更加有用。”



谷歌最新的大语言模型在大多数用户请求领域都比其前代产品表现更好,例如代码生成和根据用户请求提供事实正确响应的能力。

 

在谷歌 DeepMind CEO Demis Hassabis 和谷歌 DeepMind CTO Koray Kavukcuoglu 代表 Gemini 团队撰写的博文中,详细介绍了 Gemini 2.0 版本的具体特性。

 

据他们称,Gemini 2.0 Flash 以 1.5 Flash 的成功为基础,是谷歌目前最受开发者欢迎的版本,在同样快速的响应时间下具有增强的性能。值得注意的是,2.0 Flash 在关键基准测试中甚至比 1.5 Pro 更快,速度是 1.5 Pro 的两倍。2.0 Flash 还具有新功能。除了支持图像、视频和音频等多模式输入外,2.0 Flash 现在还支持多模式输出,例如与文本混合的原生生成的图像和可操纵的文本转语音 (TTS) 多语言音频。它还可以原生调用 Google 搜索、代码执行以及第三方用户定义函数等工具。



过去一个月,Gemini 团队一直在分享 Gemini 2.0 的早期实验版本,并得到了开发人员的积极反馈。

 

Gemini 2.0 Flash 现已作为实验模型通过 Google AI Studio 和 Vertex AI 中的 Gemini API 向开发者提供,所有开发者均可使用多模式输入和文本输出,早期合作伙伴可使用文本转语音和原生图像生成功能。

 

1 月份将全面上市,同时将推出更多模型尺寸。为了帮助开发人员构建动态和交互式应用程序,谷歌还发布了新的 Multimodal Live API,它具有实时音频、视频流输入以及使用多个组合工具的能力。

 

要访问实验版本 Flash 2.0 的聊天优化版本,Gemini 用户可以在桌面和移动网络上的模型下拉菜单中选择它。该公司表示,它将很快在 Gemini 移动应用程序上提供。

 

Gemini Flash 2.0 的多模版本将通过 Google 的 AI Studio 和 Vertex AI 开发者平台提供。

 

该公司还表示,计划在 2025 年初将 Gemini 2.0 扩展到更多谷歌产品。

推出 Deep Search 新功能

 

谷歌此次发布的还不仅仅是大模型。谷歌宣布将推出一项名为Deep Research的新功能,它使用高级推理和长上下文功能充当研究助手,探索复杂主题并代表用户编写报告。它今日起已经 Gemini Advanced 中可用。

 

据谷歌方面称,Search 无疑是受到人工智能影响最深远、变革最显著的产品。如今,AI Overviews 已触达 10 亿用户,该功能使用户能够提出全新的问题类型,迅速成为 Search 有史以来最受欢迎的功能之一。接下来,谷歌会将 Gemini 2.0 的高级推理能力融入 AI Overviews,以攻克更复杂的主题和多步骤问题,包括高等数学方程、多模态查询和编码。同时,谷歌还计划明年将 AI Overviews 功能面向更多国家开放,适配更多语言。

 

 

2.0 基于谷歌定制的硬件第六代 TPU Trillium 构建而成。TPU 为 Gemini 2.0 的训练和推理提供 100% 算力支持,今天 Trillium 也全面向用户开放,以便他们能够基于此进行开发。

通过 Gemini 2.0 解锁 Agent 体验

 

Gemini 2.0 Flash 已经进行了原生用户界面操作能力的改进,其他改进还包括多模式推理、长上下文理解、复杂指令跟踪和规划、组合函数调用、原生工具使用和改进的延迟等。

 

自大模型诞生以来,AI Agent 的实际应用是一个非常火爆的研究领域。谷歌正在通过一系列原型探索这一新领域,这些原型可以帮助人们完成任务并完成工作。其中包括对 Project Astra 的更新,这是谷歌的研究原型,旨在探索通用人工智能助手的未来功能;新 Project Mariner,它从浏览器开始探索人机交互的未来;以及 Jules,一个可以帮助开发人员的 AI 代码 Agent。

 

Gemini API 集团产品经理 Shrestha Basu Mallick 和谷歌实验室产品总监 Kathy Korevec 表示:“从今天开始(对于受信任的测试人员),你可以将 Python 和 JavaScript 编码任务转移给 Jules。Jules 可以异步工作并与你的 GitHub 工作流程集成,处理错误修复和其他耗时任务,而你则专注于你真正想要构建的内容。

 

谷歌也表示,即便技术持续迭代,但 Gemini 系列模型仍处于开发的早期阶段,他们很高兴看到那些值得信赖的测试人员如何使用这些新功能以及他们可以从中学到什么经验,这样就可以在未来的产品中更广泛地使用它们。

 

硬刚一众 AI 独角兽,谷歌更胜一筹?

 

Gemini 2.0 是谷歌在科技行业日益激烈的人工智能竞赛中的最新成果。谷歌正在与科技巨头微软、Meta 以及一众 AI 明星独角兽如 OpenAI、Perplexity 和 Anthropic 等初创公司展开激烈战争。

 

谷歌这一波出手在技术社区引发了热议,一名 Reddit 用户对 Gemini 2.0 的发布表示震惊,他评论道:

 

“我不知道我现在的感受是什么。兴奋、担忧、不安、好奇以及对 AI 的绝对敬畏交织在一起。超现实的是,我们正在经历这种改进,并且每次发布的迭代都给我们留下了深刻的印象。我甚至都不敢想象 10 年后的情况。看看 2004 年到 2014 年的科技各个方面都取得了巨大进展,但与这两年 AI 势头相比还有很大差距。”

 

有用户调侃,谷歌甚至都等不及 OpenAI 把“疯狂发布周”过完再来炸场,结合前两日 Sora 潦草发布,有不少网友直接站队谷歌:

 

“谷歌的 Gemini 绝对是是 GPT-5 级别的威胁,我从未见过一家公司发布如此强大的模型让开发者免费试用。”

 

随着新 Flash 模型的发布,这场 AI 军备竞赛已经进入白热化阶段。据谷歌公司称,Agent 模型“可以更好地了解你周围的世界,提前思考多个步骤,并在你的监督下代表你采取行动。”

 

上周,在《纽约时报》 DealBook 峰会上与安德鲁·罗斯·索尔金 (Andrew Ross Sorkin) 的对话中,谷歌 CEO 皮查伊对微软的人工智能进步提出了质疑,表示他“很乐意在任何时候”对两家公司的模型进行并排比较。

 

安德鲁·罗斯·索尔金问皮查伊:“相对于其他参与者,你认为自己处于什么位置?”

 

皮查伊表示他很想进行并排比较,随后他补充道:“他们使用了别人的模型。”

 

“你这是在向我发起挑战。”索金回答道。

 

皮查伊笑着摇了摇头,补充道:“我只是——我非常尊重他们和他们的团队。” 

 

微软当家人纳德拉对于谷歌技术实力也给予了很高的肯定。

 

早在今年 3 月份,微软 CEO 纳德拉在挪威银行投资管理播客上表示:“谷歌本应就是大型科技公司 AI 竞赛的默认赢家。谷歌是一家非常有能力的公司,他们既有人才,又有计算能力。他们是这个领域的垂直整合参与者。他们拥有从数据到芯片到模型到产品和分销的一切。”

2024-12-12 07:0011838
用户头像
李冬梅 加V:busulishang4668

发布了 1045 篇内容, 共 658.3 次阅读, 收获喜欢 1209 次。

关注

评论

发布
暂无评论
发现更多内容

Easysearch Chart 0.2.0都有哪些变化

极限实验室

Helm easysearch

运维 | 了解 nginx 配置中 root 与 alias 的区别 | nginx

Appleex

nginx 运维

基于公开数据集,5分钟生成个性可视化数据报告

阿里云大数据AI技术

大数据 可视化分析

软件测试|Python实用炫酷技能——推导式

霍格沃兹测试开发学社

深度学习在语音识别中的应用及挑战

数据堂

为什么你的企业需要一个海外服务器?

一只扑棱蛾子

服务器 海外服务器

企业一张网,数字雨林生长时

脑极体

Docker安装mysql

百度零信任架构落地经验分享——7层零信任方案

百度安全

EVE-NG:一种强大的网络模拟器和实验平台

小魏写代码

Generative AI 新世界 | 文生图领域动手实践:预训练模型的微调

亚马逊云科技 (Amazon Web Services)

机器学习 开源 #人工智能 生成式人工智能 Amazon SageMaker

ACK 云原生 AI 套件:云原生 AI 工程化落地最优路径

阿里巴巴云原生

阿里云 AI 容器 云原生 ACK

软件测试|PC端应用自动化最佳解决方案——Pywinauto

霍格沃兹测试开发学社

AIGC | LLM 提示工程 -- 如何向ChatGPT提问

极光JIGUANG

人工智能 AIGC ChatGPT LLM

操作系统的概述

芯动大师

开发神器 - 亚马逊 CodeWhisperer 代码开发 AI 工具

亚马逊云科技 (Amazon Web Services)

慢SQL治理经验总结

阿里技术

sql 慢SQL

与创新者同行!Apache Doris 首届线下峰会即将开启,最新议程公开!|即刻预约

SelectDB

数据库 大数据 数据仓库 数据分析 实时数仓

软件测试|一步到位教会你Python字典操作(一)

霍格沃兹测试开发学社

入选 2023 新科技 100 强,雷风科技桌面云助力信创办公国产化升级

联营汇聚

简单好用的LaTeX编辑器 Texpad激活中文版

胖墩儿不胖y

Mac软件 Mac文本编辑器

软件开发人员 Kubernetes 入门指南|Part 1

SEAL安全

Kubernetes 运维 软件开发 企业号10月PK榜

对话在行人|荣庆物流:通过数智化转型使工作时效提升70%

用友BIP

2023全球商业创新大会 对话在行人

突破零基础:NineData新手任务完全指南

NineData

数据恢复 SQL开发 NineData 新手任务 数据源创建

软件测试|手把手教你用Python来模拟绘制自由落体运动过程中的抛物线

霍格沃兹测试开发学社

Programming abstractions in C阅读笔记:p176-p178

codists

谷歌深夜祭出Gemini 2.0 “硬刚”OpenAI,还让开发者免费试用!Agent时代最强AI模型登场了?_Google_李冬梅_InfoQ精选文章