写点什么

在输掉 ChatGPT 首战前,谷歌的 AIGC 战略是什么?

  • 2023-02-10
    北京
  • 本文字数:2445 字

    阅读完需:约 8 分钟

在输掉ChatGPT首战前,谷歌的AIGC战略是什么?

2022 年是生成式人工智能的重要一年。大型语言模型在生成文本和软件代码方面继续取得进展。与此同时,随着 DALL-E 2、Imagen 和 Stable Diffusion 等模型的引入,我们已经看到了文本到图像生成器的巨大进步。


这一年还标志着生成式人工智能模型的产品化进程加快。生成式模型的科学和技术正在成熟到能够解决实际问题的程度。现在,像微软和谷歌这样的公司正在寻找方法,在一个可能改变创造力未来的新形成的市场中占据领先地位。


此前,在 AI@ '22 会议上,谷歌展示了其在产品中利用生成模式的路线图。该公司的战略可能预示着该领域的发展方向,以及未来竞争格局可能发生的变化。

谷歌的生成式模型


谷歌 Parti 使用 Transformer 从文本标记创建图像(来源:Youtube)


在 AI@ '22 上,谷歌研究院的首席科学家 Douglas Eck 列出了谷歌目前在四个领域对生成式模型的研究:文本、源代码、音频、图像和视频。


谷歌目前正在所有这些领域开展测试项目,着眼于在未来创造产品。Wordcraft Writers Workshop 是一个帮助作家从大型语言模型中获得写作帮助的项目。谷歌开发了 Wordcraft,这是一款使用语言模型 LaMDA 的工具,根据用户提供的提示生成写作。该工具被设计为在一个迭代的过程中使用该模型,在这个过程中,人类作家和 LLM 互动,共同创造故事。


“使用 LaMDA 来编写完整的故事是一条死胡同。当它被用来添加情趣,添加到一个特定的角色或加强故事的一个方面时,它是一个更有效的工具,”Eck 说。“用户界面也必须正确。Wordcraft 工具从一开始就被设计为使作家能够与生成模型进行互动。”


学习代码是一个使用 LLM 为开发人员生成代码建议的项目。谷歌目前正在内部测试该工具,其中包括单行和多行代码完成建议。


AudioLM 使用语言模型来生成音频。该模型将一个音频样本作为输入并继续进行。它可以用来生成音乐和语音。


也许 Eck 在 AI@ '22 上展示的最先进的模型是文本到图像模型 Imagen 和 Parti。Imagen 的工作方式类似于 OpenAI 的 DALL-E 2,使用扩散模型将语言嵌入到图像中。Parti 使用 Transformer 架构,从文本标记中生成图像。DreamBooth 是一个模型,可以调整像 Imagen 这样的文本到图像生成器,在不同的背景下显示一个主题。而 DreamFusion 将扩散模型的力量与神经辐射场(neural radiance fields,NeRF)相结合,这是一种深度学习架构,可以从 2D 图像中创建 3D 模型。


谷歌 DreamBooth 对生成式模型进行了微调,以在不同的上下文中显示特定的主题。


Eck 还展示了谷歌在视频生成方面的研究预览,包括 Imagen Video 和 Phenaki。ImageVideo 使用扩散模型来创建一系列高分辨率图像,这些图像可以缝合在一起来创建视频。Phenaki 基于 Transformer 架构,将一系列文本提示转换为一系列图像。Eck 还展示了如何将 Imagen Video 和 Phenaki 结合起来,从提示序列中创建高分辨率视频。

谷歌的生成式模型的战略


Eck 在整个演讲中明确表示,生成式模型并不是意味着自动化或取代人类的创造力。


“这不再是创造一幅真实画面的生成式模型,这是关于制作你自己创造的东西,”Eck 说,“技术应该服务于我们的需要,即对我们所做的事情拥有代理权和创造性的控制。”


他在讨论谷歌的“负责任的人工智能”战略时,进一步强调了这一点,并在演讲结束时说:“创造力是使我们所有人成为人类的一个重要部分。我认为,当我们开发这些人工智能系统时,必须牢记这一点。”


除了这种言论的公关方面,即旨在缓解公众对生成式人工智能模型取代人类创造力的担忧(这在很大程度上被夸大了),对控制的强调还具有引导该领域走向以人为本的人工智能的积极影响。人工智能系统的设计方式应该提供透明度和控制,以增强人类的能力。如果没有人类的控制和监督,像生成式模型这样的人工智能系统将表现不佳,因为它们不像我们人类那样掌握基本概念。

谷歌能在生成式人工智能领域展开竞争吗?


人工智能研究和产品化之间的差距可能非常难以弥补。当然,谷歌的 LLM 和文本到图像模型的质量并不比 OpenAI 的 GPT-3 和 DALL-E 2 差。但问题是,谷歌能否基于这些模型推出一款成功的产品?


在考虑将一项技术产品化时,有几个方面需要考虑。该技术是否会成为一个新产品的基础?如果不是,它是否会被整合到现有产品中?它解决的是什么问题,目前存在的替代解决方案是什么?该产品是否提供了足够的附加值来说服用户转换?它能否帮助巩固公司在现有市场的地位?


自然地,公司会试图达到容易实现的目标,也就是把技术带到他们已经擅长的市场。在写作领域,微软已经领先于谷歌。Office 365 比 G Suite 拥有更大的市场份额,微软在将 LLMs 集成到其产品中方面已经领先一步。


微软在编码方面也有领先优势,其 GitHub Copilot 和 Codex 已经处于生产模式,而谷歌的内部代码生成工具还没有进入生产模式。谷歌最受欢迎的开发工具是 Colab 和 Android Studio,这将为其提供一个测试的场所,让谷歌在准备就绪时测试并推出自己的代码人工智能。但这些 IDE 的市场份额无法与微软的 Visual Studio Code 和 GitHub Codespaces(也归微软所有)相提并论。


在图像、视频和音频领域,我认为 Adobe 将是生成式人工智能的赢家。Adobe 已经拥有最大的市场份额和成熟的工具,这些工具正在定期更新人工智能功能。而且,Adobe 已经在其工具套件中尝试使用生成式人工智能工具。


然而,这并不意味着现任者一定会在生成式人工智能领域占据主导地位。目前,我们正从我们今天使用的工具的角度来看待生成式模型,如文字处理器、IDE 和图像编辑应用程序。基本上,我们正在研究生成式模型如何能够自动化或改进我们已经在做的任务(完成我们的句子,编写代码块,编辑或生成照片,等等)。当我们创造新的工具系统和工作流程时,人工智能的真正潜力将得到充分发挥,这些系统可以充分利用生成模型日益增长的能力和人工智能的其他进步,以完全不同的方式做事(我有一些想法,我将在未来详细阐述)。


正如谷歌重塑了信息发现,亚马逊随着网络的普及重塑了购物模式一样,那些发现并拥抱人工智能新机遇的公司,必将改造现有市场或创造新的市场。


作者简介:

Ben Dickson,软件工程师,也是 TechTalks 创始人,撰写关于科技、商业和政治的文章。


原文链接:

https://bdtechtalks.com/2022/11/07/google-generative-ai-strategy/

2023-02-10 14:486078

评论

发布
暂无评论
发现更多内容

“消灭你,与你无关”——阿里巴巴的风险 | 旧文重发

赵新龙

阿里巴巴 风险 蒋凡 IPO

如何避免把中台变成外包团队

松花皮蛋me

数据中台

“IPO上市扒层皮”,以阿里巴巴为例看看公开了什么 | 如何读IPO招股书(3-b)

赵新龙

阿里巴巴 IPO 招股说明书

运维 Harbor 镜像仓库的法宝:Operator

亨利笔记

Kubernetes 容器 k8s Harbor operator

如何读IPO招股说明书(2)到哪儿下载招股书?

赵新龙

IPO 上市 招股说明书

OpenCV 在 Android 上的应用

fengzhizi715

android OpenCV 计算机视觉

判断链表是否有环

Kenn

算法 链表 双指针 Brent

批注MYSQL开发规范,助你了解其背后的“道”

三石

数据库规范 规范背后的原理 白话规范

死磕Java并发编程(4):happens-before是什么?JMM最最核心的概念,看完你就懂了

Seven七哥

Java Java并发 happens-before JMM

不知不觉,写了10000字了

小天同学

写作 个人感想 思辨

演讲的秘诀

伯薇

个人成长 演讲 追求极致 完美主义

我们是时候降低对完全自动驾驶的期望了

赵钰莹

自动驾驶 AI

我不是怕表错态,而是怕我会不自觉地捍卫它

池建强

个人成长

曾国藩的人生“六戒”

霍太稳@极客邦科技

身心健康 个人成长 心理学

二叉树先序中序后序的非递归实现

Kenn

算法

“IPO上市扒层皮”,以阿里巴巴为例看看公开了什么 | 如何读IPO招股书(3-a)

赵新龙

阿里巴巴 IPO 招股说明书

vSphere 7融合Kubernetes,构建现代化应用的平台

亨利笔记

Kubernetes 容器 云原生 k8s vSphere

哪儿有真实靠谱的数据,说谎话必须负责的那种?| IPO招股说明书(1)

赵新龙

阿里巴巴 IPO 旷视科技 数据

像产品设计一样思考、像程序运行一样执行

水色

回"疫"录(4):见证历史

小天同学

疫情 回忆录 现实纪录 纪实

程序员陪娃漫画系列——吃饭

孙苏勇

程序员 生活 陪伴 漫画

迷茫时,想想能为这个世界做些什么就好了

霍太稳@极客邦科技

身心健康 个人成长 团队协作

ZGC都出来了,你还不懂G1?

大白给小白讲故事

G1 JVM

“WHY-HOW-WHAT”这个被誉为伟大的领袖如何激励行动的黄金圈法则,非常值得大家学一学!

数列科技杨德华

思维方式

Harbor和Dragonfly双剑合璧 打造容器镜像运维新模式

亨利笔记

容器 k8s Harbor dragonfly 镜像

浅谈行业软件

孙苏勇

软件 思考 转型

Nginx学习

陈雷雷

nginx

二叉树的先序中序后序递归实现

Kenn

算法 递归

JCJC错别字检测JS接口新增CORS跨域支持

田春峰-JCJC错别字检测

Golang 真的好用吗?

极客时间

编程语言 Go 语言

祝这些不要脸的王八蛋同行家里着火

二爷

在输掉ChatGPT首战前,谷歌的AIGC战略是什么?_文化 & 方法_Ben Dickson_InfoQ精选文章