QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

在输掉 ChatGPT 首战前,谷歌的 AIGC 战略是什么?

  • 2023-02-10
    北京
  • 本文字数:2445 字

    阅读完需:约 8 分钟

在输掉ChatGPT首战前,谷歌的AIGC战略是什么?

2022 年是生成式人工智能的重要一年。大型语言模型在生成文本和软件代码方面继续取得进展。与此同时,随着 DALL-E 2、Imagen 和 Stable Diffusion 等模型的引入,我们已经看到了文本到图像生成器的巨大进步。


这一年还标志着生成式人工智能模型的产品化进程加快。生成式模型的科学和技术正在成熟到能够解决实际问题的程度。现在,像微软和谷歌这样的公司正在寻找方法,在一个可能改变创造力未来的新形成的市场中占据领先地位。


此前,在 AI@ '22 会议上,谷歌展示了其在产品中利用生成模式的路线图。该公司的战略可能预示着该领域的发展方向,以及未来竞争格局可能发生的变化。

谷歌的生成式模型


谷歌 Parti 使用 Transformer 从文本标记创建图像(来源:Youtube)


在 AI@ '22 上,谷歌研究院的首席科学家 Douglas Eck 列出了谷歌目前在四个领域对生成式模型的研究:文本、源代码、音频、图像和视频。


谷歌目前正在所有这些领域开展测试项目,着眼于在未来创造产品。Wordcraft Writers Workshop 是一个帮助作家从大型语言模型中获得写作帮助的项目。谷歌开发了 Wordcraft,这是一款使用语言模型 LaMDA 的工具,根据用户提供的提示生成写作。该工具被设计为在一个迭代的过程中使用该模型,在这个过程中,人类作家和 LLM 互动,共同创造故事。


“使用 LaMDA 来编写完整的故事是一条死胡同。当它被用来添加情趣,添加到一个特定的角色或加强故事的一个方面时,它是一个更有效的工具,”Eck 说。“用户界面也必须正确。Wordcraft 工具从一开始就被设计为使作家能够与生成模型进行互动。”


学习代码是一个使用 LLM 为开发人员生成代码建议的项目。谷歌目前正在内部测试该工具,其中包括单行和多行代码完成建议。


AudioLM 使用语言模型来生成音频。该模型将一个音频样本作为输入并继续进行。它可以用来生成音乐和语音。


也许 Eck 在 AI@ '22 上展示的最先进的模型是文本到图像模型 Imagen 和 Parti。Imagen 的工作方式类似于 OpenAI 的 DALL-E 2,使用扩散模型将语言嵌入到图像中。Parti 使用 Transformer 架构,从文本标记中生成图像。DreamBooth 是一个模型,可以调整像 Imagen 这样的文本到图像生成器,在不同的背景下显示一个主题。而 DreamFusion 将扩散模型的力量与神经辐射场(neural radiance fields,NeRF)相结合,这是一种深度学习架构,可以从 2D 图像中创建 3D 模型。


谷歌 DreamBooth 对生成式模型进行了微调,以在不同的上下文中显示特定的主题。


Eck 还展示了谷歌在视频生成方面的研究预览,包括 Imagen Video 和 Phenaki。ImageVideo 使用扩散模型来创建一系列高分辨率图像,这些图像可以缝合在一起来创建视频。Phenaki 基于 Transformer 架构,将一系列文本提示转换为一系列图像。Eck 还展示了如何将 Imagen Video 和 Phenaki 结合起来,从提示序列中创建高分辨率视频。

谷歌的生成式模型的战略


Eck 在整个演讲中明确表示,生成式模型并不是意味着自动化或取代人类的创造力。


“这不再是创造一幅真实画面的生成式模型,这是关于制作你自己创造的东西,”Eck 说,“技术应该服务于我们的需要,即对我们所做的事情拥有代理权和创造性的控制。”


他在讨论谷歌的“负责任的人工智能”战略时,进一步强调了这一点,并在演讲结束时说:“创造力是使我们所有人成为人类的一个重要部分。我认为,当我们开发这些人工智能系统时,必须牢记这一点。”


除了这种言论的公关方面,即旨在缓解公众对生成式人工智能模型取代人类创造力的担忧(这在很大程度上被夸大了),对控制的强调还具有引导该领域走向以人为本的人工智能的积极影响。人工智能系统的设计方式应该提供透明度和控制,以增强人类的能力。如果没有人类的控制和监督,像生成式模型这样的人工智能系统将表现不佳,因为它们不像我们人类那样掌握基本概念。

谷歌能在生成式人工智能领域展开竞争吗?


人工智能研究和产品化之间的差距可能非常难以弥补。当然,谷歌的 LLM 和文本到图像模型的质量并不比 OpenAI 的 GPT-3 和 DALL-E 2 差。但问题是,谷歌能否基于这些模型推出一款成功的产品?


在考虑将一项技术产品化时,有几个方面需要考虑。该技术是否会成为一个新产品的基础?如果不是,它是否会被整合到现有产品中?它解决的是什么问题,目前存在的替代解决方案是什么?该产品是否提供了足够的附加值来说服用户转换?它能否帮助巩固公司在现有市场的地位?


自然地,公司会试图达到容易实现的目标,也就是把技术带到他们已经擅长的市场。在写作领域,微软已经领先于谷歌。Office 365 比 G Suite 拥有更大的市场份额,微软在将 LLMs 集成到其产品中方面已经领先一步。


微软在编码方面也有领先优势,其 GitHub Copilot 和 Codex 已经处于生产模式,而谷歌的内部代码生成工具还没有进入生产模式。谷歌最受欢迎的开发工具是 Colab 和 Android Studio,这将为其提供一个测试的场所,让谷歌在准备就绪时测试并推出自己的代码人工智能。但这些 IDE 的市场份额无法与微软的 Visual Studio Code 和 GitHub Codespaces(也归微软所有)相提并论。


在图像、视频和音频领域,我认为 Adobe 将是生成式人工智能的赢家。Adobe 已经拥有最大的市场份额和成熟的工具,这些工具正在定期更新人工智能功能。而且,Adobe 已经在其工具套件中尝试使用生成式人工智能工具。


然而,这并不意味着现任者一定会在生成式人工智能领域占据主导地位。目前,我们正从我们今天使用的工具的角度来看待生成式模型,如文字处理器、IDE 和图像编辑应用程序。基本上,我们正在研究生成式模型如何能够自动化或改进我们已经在做的任务(完成我们的句子,编写代码块,编辑或生成照片,等等)。当我们创造新的工具系统和工作流程时,人工智能的真正潜力将得到充分发挥,这些系统可以充分利用生成模型日益增长的能力和人工智能的其他进步,以完全不同的方式做事(我有一些想法,我将在未来详细阐述)。


正如谷歌重塑了信息发现,亚马逊随着网络的普及重塑了购物模式一样,那些发现并拥抱人工智能新机遇的公司,必将改造现有市场或创造新的市场。


作者简介:

Ben Dickson,软件工程师,也是 TechTalks 创始人,撰写关于科技、商业和政治的文章。


原文链接:

https://bdtechtalks.com/2022/11/07/google-generative-ai-strategy/

2023-02-10 14:486096

评论

发布
暂无评论
发现更多内容

华为超大云数据中心落地贵州,这些硬核技术有利支撑“东数西算”

华为云开发者联盟

服务器 数据中心 华为云 东数西算 云数据中心

MySQL从入门到入魔之数据库连接池(04)

海拥(haiyong.site)

MySQL 数据库 28天写作 12月日更

OPPO大数据离线任务调度系统OFLOW

安第斯智能云

后端 数据

在高并发环境下该如何构建应用级缓存

华为云开发者联盟

缓存 高并发 负载 应用级缓存 缓存命中率

如何成为优秀的技术主管?你要做到这三点

阿里技术

技术管理 技术人生 内容合集

在阿里,我如何做好技术项目管理?

阿里技术

技术管理 技术人生 内容合集

毕业10年才懂,会升层思考,工作有多轻松?

阿里技术

技术管理 技术人生 内容合集

面对复杂业务,if-else coder 如何升级?

阿里技术

技术人生 内容合集

在阿里做了五年技术主管,我有话想说

阿里技术

技术人生 内容合集

EasyRecovery的高级设置如何使用

淋雨

数据恢复 EasyRecovery

一文带你了解什么是GitOps

华为云开发者联盟

DevOps 运维 测试 软件开发 gitops

为企业创建完美CRM系统策略

低代码小观

企业管理 CRM 客户关系管理 CRM系统 客户关系管理系统

优秀工程师必备的一项技能,你解锁了吗?

阿里技术

技术管理 技术人生 内容合集

一周信创舆情观察(12.13~12.19)

统小信uos

如何做好技术 Team Leader?

阿里技术

技术管理 技术人 内容合集

为什么大部分人做不了架构师?这2点是关键

阿里技术

技术人生 内容合集

Linux环境变量配置

恒生LIGHT云社区

Linux 运维 环境配置 环境变量

互联网时代,谁来保护我们的个人隐私信息?

郑州埃文科技

数据库 App IP 个人信息

RPA的定义

金小K

RPA 自动化 自动化平台 自动化运维

架构实战-模块七-作业

无名

架构实战营 「架构实战营」

Python代码阅读(第71篇):检测一个平坦列表中是否有重复元素

Felix

Python List 编程 阅读代码 Python初学者

拍乐云发布“融合语音通话”产品,实现多场景下VoIP和PSTN互通

拍乐云Pano

RTC PSTN VoIP 融合语音通话

7 个建议让 Code Review 高效又高质

阿里技术

技术管理 技术人生 内容合集

上百台linux服务器管理用什么软件好?谁给推荐一下!

行云管家

Linux 服务器 服务器管理

Linux云计算有那么难学吗?Linux入门篇。系统常用函数的调用方法大全

学神来啦

MySQL nginx Linux Shell linux云计算

如何提高一个研发团队的“代码速度”?

阿里技术

技术管理 技术人生 内容合集

短视频如何有效去重?vivo 短视频分享去重实践

Zilliz

数据库 Milvus Zilliz

自用学习资料,Linux内核之【内存管理】的一些分享

奔着腾讯去

内存泄露 C/C++ Linux内核 内存映射 内存池

CSS之变量(四)悬浮跟踪按钮

Augus

CSS 12月日更

Typora + picGo实现插入图片上传gitee图床

zdd

【浅谈黑客与学习思路】黑客的种类和行为,初学者应该怎样学习

H

黑客 网络安全 信息安全

在输掉ChatGPT首战前,谷歌的AIGC战略是什么?_文化 & 方法_Ben Dickson_InfoQ精选文章