2022 年是 AI 新秀风起泉涌的一年,先是图像生成模型,包括 DALL-E、MidJourney 和开源的 Stable Diffusion,然后是 ChatGPT——第一个取得重大突破的文本生成模型。显然,我们正迎来一个技术的新时代。
要想预测这个新时代将如何发展,我们不妨回顾一下 26 年前最著名的《创新者的困境》(作者 Clayton Christensen)一书中关于不同类型创新的论述:
大多数新技术都促进了产品性能的提升,我称之为持续性技术。一些持续性技术在性质上可能是不连续的或激进的,其他的则是增量的。所有持续性技术的共同之处在于,它们都在主要市场的主流客户历来重视的性能维度上提升了现有产品的性能。某一特定行业的大多数技术进步都具有持续性……
颠覆性技术为市场带来了与以往截然不同的价值。一般来说,在主流市场上,颠覆性技术的表现不如成熟产品,但它们有一些边缘(通常是新)客户看重的其他功能。基于颠覆性技术构建的产品通常更便宜、更简单、更小,而且通常使用起来更方便。
我们倾向于回顾过去,通过观察公司在其创新进入市场后的表现来判断这项创新是具有持续性还是颠覆性:如果创新具有持续性,那么公司就会变得更强大;如果创新具有颠覆性,那么公司可能会从中获得大部分的价值。
想想之前的科技时代:
PC 几乎颠覆了所有已有的产品,这些相对便宜和低功耗的设备几乎没有微型计算机(更不用说大型机)的功能或利润率。这就是为什么 IBM 乐于将最初的 PC 芯片和操作系统分别外包给英特尔和微软,这样他们就可以推出一款产品来满足企业客户的需求。不过,随着 PC 的速度越来越快,英特尔和微软占据了主导地位,因为这个市场让之前的一切都相形见绌。
互联网几乎是全新的市场创新,因此由全新的公司定义,在某种程度上,这些公司在远离技术的行业(尤其是那些涉及信息的行业)颠覆了现有的公司。这是谷歌、Meta、在线市场和电子商务的时代,所有这些应用程序都运行在配备了 Windows 操作系统和英特尔芯片的 PC 上。
云计算可以说是互联网的一部分,但我认为它应该有自己的类别。它也极具颠覆性:商用 x86 架构淘汰了专门的服务器硬件,一大批 SaaS 初创公司剥离了现有公司的功能,成立了自己的公司。值得注意的是,云计算的核心基础设施主要是由之前的赢家构建的:亚马逊、微软和谷歌。微软尤其引人注目,因为它们还将其传统的软件业务转型为 SaaS 服务,部分原因是它们已经将上述的软件业务转变成订阅模式。
移动领域最终被苹果和谷歌这两家老牌公司主导。不过,这并不意味着这不具有颠覆性:苹果推出新的 UI 模式,不像微软那样将手机视为小型 PC;谷歌的新商业模式模式不再将手机视为其操作系统销售的直接利润来源,而是将其视为广告业务的护城河。
关于这段历史,上面的这些假设可能并不完全正确。颠覆性创新确实总是来自市场的新进入者,但这些新进入者并不一定是初创公司——在之前的科技时代,一些最大的赢家都是现有的公司,它们利用自己现有的业务进入新的领域。与此同时,Christensen 的其他原则仍然成立:微软在移动领域苦苦挣扎,因为这是一项具有颠覆性的举动,但 SaaS 最终得以持续,因为它的商业模式已经进入了正轨。
考虑到现有公司在科技新时代所取得的成就,当谈及 AI 的影响时,我们不得不从苹果、亚马逊、Meta、谷歌和微软这五大科技巨头公司讲起。
苹果
我已经引用了一本关于技术战略的书,在文章方面,Joel Spolsky 的“第五封策略信”比较著名,尤其是这句:
聪明的公司试图将他们的产品商品化。
Spolsky 在解释为什么大公司会在开源软件上投入时写下了下面的话:
可运行的代码不是免费的,无论是私有的还是开源的。即使你没有为其支付现金,它也会有机会成本和时间成本。参与开源的志愿开发者数量有限,每个开源项目都在与其他开源项目竞争有限的编程资源,只有最吸引人的项目才能真正拥有足够多的志愿开发者。总而言之,我不太认同那些试图将免费软件与经济挂钩的人,因为在我看来,他们只会得到一堆低级的错误。
开源并不能摆脱万有引力定律或经济定律,我们已经在 Eazel、ArsDigita、之前的 VA Linux 和许多其他尝试中看到了这一点。但在开源世界中,有一些事情很少有人能够真正了解:许多大型的上市公司正在投入大量资金来支持开源软件,雇佣了大型的开发者团队,其背后的原理就是互补品原则。
当一种产品的互补品价格下降时,人们对它的需求就会增加。一般来说,公司的战略利益是尽可能降低互补品的价格。理论上,可持续的最低价格就是“商品价格”——当一群竞争对手提供无差别的商品时,这个价格就会出现。因此,聪明的公司试图将其产品的互补品商品化。如果你能做到这一点,人们对你产品的需求就会增加,你就能赚得更多。
苹果公司在开源技术上投入,最著名的是用于其操作系统的 Darwin 内核和 WebKit 浏览器引擎。WebKit 与 Spolsky 所说的原则不谋而合——确保 Web 功能在苹果设备上良好运行,苹果的设备就会更有价值。
苹果在 AI 方面的努力在很大程度上是专有的:传统的机器学习模型被用在推荐、照片识别和语音识别等领域,但都没能对苹果的业务产生重大影响。不过,苹果确实收到了来自开源世界的一份令人难以置信的礼物:Stable Diffusion。
Stable Diffusion 之所以引人注目,不仅仅是因为它是开源的,还因为它的模型小得惊人:它在发布时就已经可以在一些消费类显卡上运行,经过几周的优化就可以在 iPhone 上运行。
值得称赞的是,苹果公司抓住了这个机会。苹果的机器学习团队上个月宣布:
今天,我们很高兴地发布 macOS 13.1 和 iOS 16.2 上的 Stable Diffusion Core ML 优化,以及将其部署到苹果芯片设备上的代码……
Stable Diffusion 的一个关键问题是模型在哪里运行。为什么在设备上部署 Stable Diffusion 比基于服务器的方法更可取,原因有很多。首先,最终用户的隐私受到了保护,因为作为模型输入的用户数据都保存在用户的设备上。其次,在初次下载后,用户不需要连接网络就可以使用模型。最后,在本地部署模型能够减少或消除开发者与服务器相关的工作量……
优化 Core ML 和简化模型转换使得开发人员能够更容易地将这项技术集成到他们的应用程序中,既保护隐私又经济可行,同时又能在苹果的芯片上获得最佳性能。这个版本包含了一个 Python 包,用于将 Stable Diffusion 模型从 PyTorch 转换为 Core ML,以及一个用于部署模型的 Swift 包。
这一声明分为两部分:首先,苹果优化了 Stable Diffusion 模型(因为它是开源的);其次,苹果更新了其操作系统,由于苹果的集成模式,操作系统已经可以在自家的芯片上运行。
此外,似乎可以肯定的是,这只是一个开始:虽然苹果多年来一直在自己的芯片上发布所谓的“神经网络引擎”,但 AI 专用硬件是根据苹果自己的需求进行优化的;苹果未来的芯片,如果不是今年,那很可能是明年,也会以 Stable Diffusion 作为优化方向。此外,Stable Diffusion 可以内置到苹果的操作系统中,并为应用程序开发者提供易于访问的 API。
这使得“足够好”的图像生成功能可以有效地内置到苹果设备中,任何开发者都可以使用,不像 Lensa 那样需要部署大规模的后端基础设施。推而言之,这个领域的赢家最终看起来很像 App Store 时代的赢家:苹果会赢,因为它的集成模式和芯片优势被用来提供差异化的应用程序,而独立的小型应用程序开发者有 API 和发布渠道来建立新的业务。
另一方面,Dall-E 或 MidJourney 等集中式图像生成服务,以及为它们提供支撑的云供应商,将会是失败者。但可以肯定的是,苹果设备上的 Stable Diffusion 并不会占领整个市场——Dall-E 和 MidJourney 都比 Stable Diffusion“更好”,至少在我看来是这样。当然,苹果设备之外还有一大片天地,但内置的本地功能将影响集中式服务和集中式计算的最终目标市场。
亚马逊
和苹果一样,亚马逊在其应用程序中使用了机器学习。不过,像图像和文本生成这些直接面向消费者的应用场景似乎不那么明显。更为重要的是 AWS,它已经在云端提供对 GPU 的访问。
其中一些用于训练,包括 Stable Diffusion。据 Stability AI 创始人兼首席执行官 Emad Mostaque 透露,它使用了 256 个 Nvidia A100,总计时长 15 万小时,市场价值为 60 万美元(非常之低)。更大的应用场景是推理,即将模型用于生成图像(在 ChatGPT 中就是文本)。每次你在 MidJourney 中生成图像,或者在 Lensa 中生成角色时,推理都是在云端的 GPU 上执行的。
亚马逊在这一领域的发展前景取决于许多因素。首先,也是最明显的一点,这些产品最终在现实世界中有多大用处。除此之外,苹果在本地生成技术方面的进展可能会对其产生重大影响。不过,亚马逊本身就是一家芯片制造商:虽然迄今为止它的大部分努力都集中在 Graviton CPU 上,但它也可以为 Stable Diffusion 等模型打造专用硬件,并提供有竞争力的价格。尽管如此,AWS 仍在两面下注:云服务也是英伟达产品的主要合作伙伴。
亚马逊短期内面临的最大问题是对需求的判断:没有足够的 GPU 就相当于放弃到嘴的肥肉,购买太多闲置 GPU 会造成额外的成本。当然,这也不是最糟糕的错误:AI 的挑战之一是推理是需要花钱的,换句话说,用 AI 做东西是有边际成本的。
开发 AI 产品的边际成本可能会是一个被低估的问题。虽然云服务总是有成本的,但具有离散特质的 AI 生成可能会使为实现产品与市场匹配所需的迭代提供资金变得困难。ChatGPT 是迄今为止最具突破性的产品,它对终端用户免费,由一家 OpenAI 公司负责提供,这家公司不仅构建了自己的模型,还与微软达成了算力协议,我不认为这是偶然的。如果 AWS 不得不以低价出售 GPU,从长远来看,这可能会刺激使用量的增长。
值得注意的是,这些成本应该会随着时间的推移而下降:芯片会变得更快,模型也会变得更高效,一旦市场上有足够多的产品可以最大限度地利用云服务,云服务应该会带来规模性的回报。尽管如此,除了前面提到的在本地运行推理的可能性之外,全栈集成能带来多大的不同还是一个悬而未决的问题。
Meta
我已经在“Meta Myths”这篇文章中详细阐述了为什么我认为 AI 对 Meta 来说是一个巨大的机会,值得 Meta 投入巨大的资本支出:
Meta 拥有庞大的数据中心,但这些数据中心主要是关于 CPU 计算,因为这是 Meta 服务所需要的。CPU 计算也是 Meta 的确定性广告模型和内容推荐算法所必需的。
然而,ATT(应用追踪透明度)的长期解决方案是建立概率模型,不仅能确定谁应该成为广告目标,还能了解广告的转换情况。这些概率模型将使用大量的 GPU,以英伟达的 A100 为例,这些 GPU 的成本将高达五位数。在一个确定性广告效果更好的世界里,这可能太昂贵了,但 Meta 已经不在那个世界里了,不在更好的定位和度量上投入将是愚蠢的。
此外,同样的方法对 Reels App 的持续增长至关重要:在整个网络上推荐内容比只在朋友和家人范围内推荐内容要困难得多,尤其是因为 Meta 计划不仅推荐视频,还推荐所有类型的媒体,并将其与你关心的内容穿插在一起。在这方面,AI 模型也很关键,而构建这些模型的设备成本非常高。
不过,从长远来看,这些投资应该会有回报。首先,更好的目标定位和推荐是有好处的,这应该会重启营收增长。其次,一旦这些 AI 数据中心建成,维护和升级它们的成本应该大大低于第一次建造它们的初始成本。第三,除了谷歌,没有其他公司能做出如此大规模的投资(而且谷歌的资本支出也将上升)。
最后一点可能是最重要的:ATT 对 Meta 的伤害比其他任何公司都大,因为 ATT 已经拥有迄今为止最大、最精细的广告业务,但从长远来看,它应该会加深 Meta 的护城河。对于 Snap、Twitter 或其他数字广告领域的落后者来说,这种水平的投入根本是不可行的(即使 Snap 依赖云供应商而不是自己的数据中心)。当你把 Meta 的广告定位可能开始远离这个领域这一事实与 Reels 带来的库存大幅增加(这会降低价格)的事实结合起来时,你不禁会想,为什么广告商还会费心地跑去其他地方呢?
让 Meta 的 AI 发挥作用的一个重要因素不仅是建立基本模型,而且要不断根据个人用户来调整它们,这将需要非常大的算力,Meta 需要找出如何高效地实现这种定制。不过,Meta 产品的集成度可能会越来越高,这一点很有帮助:虽然 Meta 已经承诺在其 VR 头盔中使用高通芯片,但也在开发自己的服务器芯片,还发布了在英伟达和 AMD 芯片上抽象工作负载的工具,而且似乎也在开发自己的 AI 芯片。
从长远来看,图像和文本生成将会对 Meta 产生怎样的影响:Sam Lessin 已经做出假设,算法时间线的终点是 AI 内容。在谈到元宇宙时,我也提出了同样的观点。换句话说,为了提供个性化建议,Meta 在 AI 上进行了大量投入,但这个想法的本质就是通过 Meta 的渠道提供个性化内容。
现在再来看 Meta 的广告工具将如何发展就很有趣了:生成和 A/B 测试的整个过程都可以由 AI 完成,没有公司比 Meta 更擅长大规模提供这种功能了。请记住,Meta 的广告主要是关于 TOFU(营销漏斗的顶部):目标是吸引消费者对他们以前不知道存在的产品、服务或应用的眼球。这意味着会有很多失误——绝大多数广告都没有转化——但这也意味着有很大的实验和迭代空间。这似乎是 AI 发挥作用的地方:生成可能有边际成本,但远低于人类。
谷歌
《创新者的困境》出版于 1997 年,正是在这一年,柯达公司的股价达到了 94.25 美元的最高点,这似乎是有原因的:从技术方面讲,柯达处于绝佳的位置。这家公司不仅主导了当时的胶片技术,还掀起了下一波浪潮:数码相机。
这个问题可以归结为商业模式问题:柯达通过提供卤化银胶片赚了很多钱,另一方面,数码相机是数码的,这意味着它们根本不需要胶片。因此,柯达的管理层非常自信地认为,数码相机永远只适合业余爱好者,而且只有当它们变得非常便宜时,而这肯定需要很长时间。
事实上,柯达的管理层是正确的:数码相机自诞生以来,其销量在 25 年之后才超过胶片相机;数码相机在专业领域的应用花了更长时间。柯达在此期间赚了很多钱,并支付了数十亿美元的股息。虽然柯达在 2012 年破产了,但那是因为消费者有了更好的产品:先是数码相机,然后是内置摄像头的手机。
可以肯定的是,认为这是一个圆满结局的想法是一种逆向观点:大多数人认为柯达是失败的,因为我们希望公司永远存在。 从这个角度来看,柯达的案例是一种警示——一家创新公司是如何让自己的商业模式将自己引向最终的厄运的,即使这种厄运是因为消费者有了更好的产品而导致的。
然后我们就想到了谷歌和 AI。谷歌发明了转换器,一项支撑最新的 AI 模型的关键技术。据传谷歌拥有一款远优于 ChatGPT 的聊天产品。谷歌声称其图像生成能力优于 Dall-E 或市场上其他任何一家公司。然而,声称只是声称,因为市场上没有看到实际的产品。
这并不奇怪:长久以来,谷歌一直在使用机器学习来改善其搜索和其他面向消费者的产品(并通过谷歌云将这些技术作为服务提供出来)。然而,搜索一直依赖人类作为最终的仲裁者:谷歌提供链接,然后由用户点击来决定哪个是正确的。这一点延伸到了广告领域:谷歌的服务是革命性的,因为它没有向广告商按照印象收费(印象的价值很难确定,尤其是在 20 年前),而是按点击量收费,广告的目标用户将决定他们的广告是否足够好。
七年前,我曾在“Google and the Limits of Strategy”中写到谷歌的业务在 AI 世界里面临着这样的难题:
在昨天的主题演讲中,谷歌 CEO Sundar Pichai 在讲述了科技史之后,强调了我在 2014 年底提到的 PC-Web-Mobile 时代,并宣称我们正在从移动优先的世界转向 AI 优先的世界,而这就是他们推出谷歌助手的背景。
在 iOS 6 发布的前一年,苹果首次提出了 Siri 助手的概念,这是我们第一次(理论上)可以通过语音执行计算。起初它表现得并不好(可以说现在仍然不好),但它对一般计算和谷歌的影响是深远的:语音交互扩大了计算的用武之地,从你需要把目光和手放在设备上到可以在任何地方发生交互(即使限制了你可以做的事情)。例如,助手必须比搜索结果页面更积极主动,只给出可能的答案是不够的,助理需要给出正确的答案。
这对于谷歌的技术来说是一个可喜的转变。谷歌的搜索引擎从一开始就包含了“幸运”搜索按钮,谷歌创始人 Larry Page 非常有信心他们的搜索引擎可以为用户提供想要的确切结果,虽然昨天谷歌助手的演示是失败的,但结果(特别是在上下文意识方面)比市场上其他助手更令人印象深刻。从更大的方面说,谷歌在作为其助手基础的 AI 和机器学习方面显然是个领导者,这一点几乎无人质疑。
然而,商业不仅仅是关于技术,谷歌助理有两个明显的缺点。首先,正如我在今年谷歌 I/O 大会后所解释的那样,谷歌存在一个市场缺口:助手只有在可用的情况下才有用,对于数亿 iOS 用户来说,他们需要单独下载一款 App(或者像 Facebook 那样构建用户愿意在上面花大量时间的体验)。
其次,谷歌还有一个商业模式问题:“幸运”搜索按钮导致谷歌搜索赚不到钱。毕竟,如果用户不需要从搜索结果中做出选择,也就没有机会点击广告。谷歌助手也有同样的问题:广告该怎么办?
那篇文章假设谷歌助手将被用来让谷歌手机成为独一无二的产品,尽管这种假设最终被证明是错误的,但基本的分析仍然有效。在过去的 7 年里,谷歌主要的商业模式创新是在搜索引擎中塞进更多的广告,这是一种在移动设备上特别有效的策略。而且,公平地说,谷歌最赚钱的搜索——旅游、保险等——可能并不适合在聊天界面上呈现。
不过,这只会增加谷歌管理层的担忧,即在搜索的特定背景下,生成式 AI 可能代表的是一种颠覆性创新,而不是一种持续创新。颠覆性创新至少在开始阶段不如已有的东西,这就是为什么它们很容易被管理层的一些人所忽视,为了避免直面商业模式问题,他们会告诉自己当前的产品更好。当然,具有颠覆性的产品会变得越来越好,即使已有的产品变得越来越臃肿和难以使用——这听起来很像谷歌搜索目前的发展轨迹。
我不是在为谷歌说话,我以前确实这么做过,结果错得可笑。然而,犯错往往只是时间问题:谷歌已经有了自己的云计算,YouTube 的主导地位似乎在稳固,搜索走上颠覆的态势似乎也很清晰了,即使多年来一直在浪费现金和利润。
微软
微软似乎处于最有利的位置。与 AWS 一样,它也提供 GPU 云服务,是 OpenAI 的独家云供应商,虽然价格非常高,但考虑到 OpenAI 似乎有可能成为 AI 时代的另一家顶级的科技公司,这意味着微软正在为那个时代的基础设施投资。
必应就像 iPhone 诞生前夕的 Mac:它贡献了相当多的利润,但只是占主导地位的一小部分,从微软的整体来看,这一数字相对微不足道。如果将 ChatGPT 式的搜索结果整合到必应中,可能会冒获得巨大市场份额而破坏商业模式的风险,但这是一个非常值得下的赌注。
The Information 最新的报告称,GPT 最终将进入微软的生产力 App。其诀窍在于模仿 AI 编码工具 GitHub Copilot(基于 GPT 构建),想办法成为一个可以带来帮助而不是麻烦的东西(例如不要成为 Clippy)。
关键是,增加新功能——也许是收费的——完全符合微软的订阅业务模式。微软曾经被认为是颠覆性变革受害者的典型代表公司,不仅诞生于颠覆性变革,而且还处于有利地位,并因此可以达到更高的高度。
关于 AI 的潜在影响,还有很多东西可以写,但这篇文章已经很长了。从新公司的角度来看,OpenAI 显然是最有意思的:OpenAI 可能会成为所有其他 AI 公司的平台,这意味着 OpenAI 之外的 AI 的经济价值可能变得相当有限。
除了图像生成之外,文本生成领域的开源模型也有可能激增。在这个领域里,AI 变成了一种商品:这对世界的影响可能是最为显著的,但矛盾的是,对个体公司的经济影响而言,它却是最微弱的。
事实上,最大的赢家可能是英伟达和台积电。英伟达对 CUDA 生态系统的投入意味着这家公司不仅拥有最好的 AI 芯片,而且拥有最好的 AI 生态系统,并且还在投资扩大这个生态系统。不过,这已经并将继续刺激竞争,特别是在谷歌 TPU 等内部芯片方面。不过,至少在可预见的未来,所有公司都将在台积电生产芯片。
然而,最大的影响可能完全不在我们的预测范围内。Nat Friedman 在采访中告诉我,Riffusion 使用 Stable Diffusion 基于文本生成音乐。我在想,当图像真的变成一种商品时,还会出现其他的什么可能性。现在,文本是通用的接口,因为自发明书写以来,文本一直是信息传递的基础。然而,人类是视觉生物,AI 在图像创作和解释方面的可用性可能会从根本上改变信息传递的含义,而这是无法预测的。
目前,我们的预测必须限定在适度的时间框架内。这可能是 AI 时代崛起的开始,但即使在技术领域,一个时代也需要十年或更长时间才能改变其周围的一切。
原文链接:
评论