在过去的一年里,我们见证了大模型领域的迅猛发展,超出了所有人的预期。ChatGPT 等开源模型正在以惊人的速度进行技术迭代,诸如 RHF、BERT 等技术都在迅猛演进,甚至小模型与专家模型的混合也崭露头角。千行百应的企业都在竞相将大模型应用于自己的业务中。
在经历了大模型一年多的蓬勃发展之后,我们借助年终这个节点,停下脚步,回顾一下大模型在过去一年中所取得的成就与面临的挑战。
InfoQ《极客有约》邀请 Hugging Face 工程师王铁震,对话新加坡国立大学校长青年教授、潞晨科技董事长尤洋和 AI 领域知名投资人陈于思,聊聊 2024 年的大模型发展。
2023 年大模型,哪件事让你印象深刻
王铁震:首先请两位嘉宾做下自我介绍,聊聊今年都做了哪些事情?
尤洋:我目前在新加坡国立大学担任教职,同时也是潞晨科技的创始人和董事长。我的研究始于高性能计算,旨在优化数据移动和各种操作的计算速度,例如浮点运算。
大约十年前,我们使用几百卡、几千卡的设备进行训练,主要应用领域是地震天气模型。在这个过程中,我意识到无论模型应用在何种领域,最终都涉及底层的矩阵运算。简而言之,我们追求的目标就是让计算变得越来越快。
在四五年前,当时 AI 模型并不是很庞大时,我们尝试使用上百卡、上千卡进行训练,但只能采用数据并行的方式,即将一个批次的数据分成多份,分配到不同的 GPU 上,然后每个服务器计算或者更新梯度。在与 Google 合作的过程中,我们成功将 Bert 的训练时间从 3 天缩短到 76 分钟。随后,我在加入加利福尼亚大学伯克利分校并获得博士学位后,回到新加坡国立大学任教,并创建了高性能人工智能实验室。目前,我们实验室拥有 13 名博士生、7 名博士后和十多名硕士生,成为一个规模不小的实验室。
在 2021 年,我有幸接触到了李开复老师的团队,并在任博冰先生的推动下,共同创立了潞晨科技。逐步得到了一系列投资,包括创业工场、红杉等知名机构以及百强安区基金。我们目前专注于产品的技术商业化。
在回顾整个 2023 年,如果要提及一件对业界有着重大影响的事情,我认为 Llama 是一个值得关注的焦点。虽然 ChatGPT 于 2022 年底推出,但我认为 Llama 的出现为整个产业带来了更多的可能性。我相信人工智能的产生具有长期的价值,未来的 10 到 30 年不仅仅是高端玩家的领域,而是具有广泛的社会影响。我坚信人工智能的能力具有广泛的受益性。在未来 3 到 5 年内,可能不会是严格意义上的 Llama,但类似于 Llama 的模型,拥有数百亿的参数,比如 70B、3B 的,我认为对于广泛推广人工智能的能力将起到至关重要的作用。如果我只能选择提到 2023 年的一件事,那么像 Llama 这样的模型在人工智能领域的出现,我认为具有长期的战略意义。
陈于思:我是陈于思,毕业于斯坦福大学,专攻电子工程博士学位。我的博士研究是芯片之间的高速互联。我们当时观察到,随着摩尔定律的继续,单一芯片的计算能力可能会达到极限,因此要实现更高的计算能力,需要将更多芯片进行连接。于是,我们与 MIT、伯克利等多所高校合作,共同推进了一个涉及芯片之间光互联的大型项目。
在那个时候,深度学习刚刚起步,实际上一块 GPU 可能已经足够。因此,我在博士毕业后转而从事硬件设计,并加入硅谷的麦肯锡公司。从那时起,我开始更加关注人工智能,包括机器学习等新技术在商业领域的应用和商业化机会。回国后,我加入平安集团,负责整个集团人工智能战略管理。
在 2018 年时,我们就尝试使用上一代 Transformer 模型,如 BERT,将其应用于智能客服领域。然而,当时模型的能力可能还不够强大。从 2019 年开始,我加入了一家基金公司,致力于全球范围内的人工智能相关投资。另一方面,我一直关注中国开源行业的发展,并曾被评选为中国开源先锋 33 人。
在回顾整个 2023 年,我认为可以用一个词来总结,那就是“Scaling Law”(扩展定律)。在我看来,这一年是 Scaling Law 持续发扬光大的一年,而且在可预见的未来,Scaling Law 肯定会继续为我们带来更大、更强大、更有力的模型,以及能够推动更多应用的可能性。
当谈到 Scaling Law 时,我认为可以从算力、算法和数据三个维度来讨论。在算力方面,我们目睹了整个 2023 年英伟达股价的飙升。我记得在年初英伟达股价可能只有 100 多元,但等到收购结束时,股价已经涨到近 400 元。这也证明了英伟达在过去一年内的强大表现,由于供给不平衡导致的定价权的强势,人们对其主导未来算力生态的信心十分充足。另一方面,在年底,谷歌的 Gemini 以及其发布的整套 TPU v5p,以及业界领先的光电混合互联技术,也给人们留下了很多想象空间,预示着未来算力可能会更加多元化。
在算法方面,GPT-4 据传闻是一个 MoE 的架构。而谷歌的 Gemini 则是一个全面的多模态架构,不同于先前分别预训练视觉和语言模型,Gemini 从一开始就将不同的模态进行融合。我们目睹了算法架构和整个多模态领域的创新和突破。
在数据方面,GPT-4 在年初主要是文本数据,到了 4V 时开始引入更多的图像数据,而 Gemini 更是将所有模态,甚至宣称将 YouTube 上所有视频的数据都引入训练。数据领域远未达到瓶颈。结合算力、算法和数据,我们看到了整个 2023 年的许多突破和创新。
更让人期待的是,虽然我们看到的已经很多,但在 OpenAI 和 Google 可能还有更多我们未曾见到的突破。因此,对于模型能力在 2024 年、2025 年甚至未来几年的提升,我感到非常乐观。结合持续发展的开源,例如 Meta 号称可能会发布一个强大的 Llama-3,我对未来充满期待。不论是闭源还是开源的模型,在 Scaling Law 的指导下,都将为我们带来更多惊喜。
大模型不再遥不可及
王铁震:在过去的一年里,我们见证了模型数量的急剧增长,技术在这段时间内迅速扩散,所有人都开始相信这个领域将会有巨大的发展。现在我们看到有这么多的模型,似乎在年初的时候,大模型被认为是昂贵且困难的,很多人觉得我们缺乏足够的数据和算力。
现在模型似乎已经不再是遥不可及的事物,其成本迅速下降,变得非常平民化。在这个过程中到底发生了什么?我们能否请两位嘉宾分享一下,过去一年我们在技术上取得了什么样的突破,是什么样的驱动力让我们经历了如此巨大的变革?
尤洋:我认为开源对这个影响非常大。特别是在年初 Llama 开源之后,整个行业迅速展开了许多基于 Llama 的微调工作。事实上,可能在去年或者 2022 年底的时候,很多人对 AI 大模型的发展并没有太多关注,所以当 GPT-3 于 2020 年 6 月发布时,可能有些人感到惊讶。这项技术其实有很多公开的信息,只要我们花一些时间静下来,我认为任何水平较高的团队都可以大致复现出一个不错的模型。
刚开始可能有些人感到不知所措,因为之前可能接触的不够多。但是一旦大家理解了它的工作原理,我觉得我们至少可以在技术上达到 ChatGPT 或者 GPT-4 的效果。首先,Llama 的技术很多都是开放的,再加上全球开源社区,例如 Hugging Face 以及 PyTorch 开源社区对这个生态做出了很多贡献。Llama 的出现加上这些因素,使得像今天制作一个 200 亿的模型或者 200 亿的模型并不是一件非常困难的事情。我个人认为,至少 90%的大公司都有能力去实现这样的任务。
王铁震:过去,训练一个模型似乎对企业来说是一个非常大的成本和挑战。然而,随着微调技术的发展,我们现在可以相对轻松地拥有这些模型。我想问一下陈于思,在模型数量急剧增长,很多人都在进行开源模型的情况下,你是否认为从投资的角度来看,开源是一个非常好的投资机会?为什么这么多公司都在参与开源,他们的玩法是什么样的?从投资的角度,你会更倾向于选择投资开源的公司吗?还是会考虑闭源的机会呢?
陈于思:我认为开源在整个生态中是非常重要的组成部分,特别是对于一些欧洲公司,例如 Hugging Face 和最近备受瞩目的 Mistral。这些公司成功地融了大量资金,尤洋老师也一直在构建一个开源的生态系统。
从软件的角度来看,开源实际上是构建自己生态系统的一种极好方式,提高品牌知名度,并吸引客户,最终实现付费转化。这一套开源到最终付费的转化过程在一些数据库和云上软件等方面已经得到验证。
在大模型领域,开源显得尤为重要。正如尤洋老师刚才提到的,像 Llama 和基于 Llama 的团队,尤其是 Mistral 的核心人员,通过持续开源努力,降低了从事大模型研发和落地的门槛。
在 Llama 出现之前,人们对大模型的理解可能只是一知半解,甚至有些人可能对其心存畏惧。但随着 Llama-2 和后续一系列开源模型的出现,尤其是模型层面和工具层面的不断开源,使得更多人能够参与大模型的创新和商业化。
对于开源公司来说,一方面,它们有机会通过开源构建生态系统,吸引更多客户,并将其转化为付费用户。另一方面,许多开源公司最终会以较高的价格被收购,这对于投资者来说是一种良好的退出渠道。
从投资者的角度来看,开源公司拥有大量用户基础,即使其本身收入不算太多,也能够吸引成功的大公司进行收购。开源技术的快速演进也是显而易见的,例如 Llama-2 的出现极大地提升了垂直领域模型的能力,而 Mistral 的 7B 和最近的 8*7B 的 MOE 架构模型有望成为新的基准。
整个开源生态和闭源公司在竞争中相辅相成,这可能是一个更为健康的状态,有助于推动大模型生态不断向前快速发展。在 2024 年,我们期待看到更多令人激动的新成果。
王铁震:于思刚才提到的全栈开源是一个非常有趣的点,这个术语可能之前我们用得比较少。在大家对开源的认识中,大模型开源通常指的是权重的开源。然而,你提到的全栈开源更全面,包括模型的训练过程以及在服务上进行的成本优化,以确保模型更快地运行并降低成本,这具有重要的意义。
我之前了解到尤洋老师的 Colossal-AI 也在这个领域做中间层的工作。我想请教一下尤洋老师,能否简要介绍一下你们主要做了哪些工作,以便能够快速实现高性能的训练或模型推理,从而降低成本,使更多人能够轻松地使用这些模型。另外,像于思老师所说,如果不使用这些工具,成本可能比直接购买 OpenAI 的 token 还要高。那么在这个优化的过程中,或者说在这个领域中还存在哪些优化的点或者欠缺的地方呢?
尤洋:我们的基础设施的最终目标是隐藏底层的具体操作细节,让用户在训练大模型时能够像制作 PPT 一样简单。具体而言,我们的基础设施服务针对三类用户进行了优化。
第一类用户是进行大模型预训练的用户,通常拥有至少 100 卡,甚至千卡、万卡的资源。这类用户面临并行分布式计算的问题,涉及大模型的切割和各种并行计算策略,如数据并行、张量并行、流水线并行等。核心原则是优化数据移动,以降低延迟和频率。
第二类用户是进行微调的用户,他们的资源相对有限,可能只有一个或几个服务器。这类用户对训练时间不敏感,但关注资源的充分利用和内存的优化,以在有限的资源下训练更大的模型。内存优化成为关键,涉及远端内存的使用,同时需要降低数据移动的频率和延迟。
第三类用户直接进行推理,可能是在调用 API 或进行模型服务。这类用户的操作相对简单,可操作的空间很大,我们通过将市面上各种推理解决方案结合起来,以及引入训练的技术,实现基本操作的高效执行。
王铁震:我想就结合这个问题,继续请教于思,从投资的角度来看,你认为我们当前所做的这些优化已经达到了极致吗?未来是否还存在新的机会,可以进一步提升用户的整体体验,使各种应用场景都能够得到更好的提升?2024 年,再次审视这些基础设施或者中间层,你更关注哪些机会呢?
陈于思:从用户体验的角度来看,我认为有两个关键点。首先是性价比,简而言之,我们希望看到模型性价比持续提升。性价比可以从两个方面考虑,首先是性能。我之前提到了 Scaling Law,在 2024 年,Scaling Law 仍将是一个备受关注的趋势。以 Google 为例,通过更强大的多模态能力,基于 Gemini Ultra,已经在许多基准测试中超过了 GPT-4。未来,随着模型对更全面、更多模态数据的预训练,GPT-5 有望成为一个完全的多模态模型,这将提高基础模型本身的能力,并启用更多应用场景,如视频理解、图文理解和语音生成等,带来更多商业化的应用。
另一方面是成本优化。随着模型规模的增加,成本理论上会更高。然而,从整个服务和模型成本优化的角度来看,我对 2024 年还是比较乐观的。目前的硬件、系统和模型技术,我相信能够实现 100 倍成本的优化。这包括一系列的技术创新,如 FlashAttention、Flash Decoding 以及 Speculative Decoding 等,都在模型加速和性能成本优化方面发挥了显著的作用。
此外,我认为未来还会有更多针对推理的硬件优化。不同的公司都在自主研发硬件,例如 Google 的 TPU、亚马逊的 Inferentia Trainium、微软的推理芯片以及 OpenAI 的潜在芯片。硬件与软件的一体化优化可能会带来更多的性价比惊喜。
第二个关键点,是在中间层和工具层方面可能会有更多的投资机会。在 AGI 到来之前,大模型的发展仍处于早期阶段。因此,在这个过程中,各种各样的工具,帮助开发者更好地开发模型,将会非常有价值。中间层的工具,如调度不同模型、自动化工具等,都有可能成为未来的发展方向。在不同任务和需求之间做好调度,将任务导向性价比最合适的模型,也是一种可能的趋势。总体来说,中间层和工具层的发展将有助于更好地应对各种复杂的开源和闭源模型,以及满足不同用户需求的优化。
AI 中间层的发展潜力
王铁震:我们可以在软件和算法层面进行大量优化,这领域还有很多潜力。不仅如此,在硬件层面还将推出专门为大型模型设计的新硬件,其中包括更大容量的内存和显存芯片。软硬件的结合,以及中间层的一些优化,都为提高效率提供了巨大机会。
我一直在思考一个问题,即针对大模型的场景,通过构建中间层基础设施来提高效率、降低成本,是否与过去我们所了解的 SaaS 有相似之处。SaaS 的目标是使企业生产效率达到最优,让最合适的人去做最合适的事情,而不是将所有工作都集中在同一个平台上。然而,我们看到在国内,SaaS 的发展并不十分顺利。我想请教大家,对于 AI 基础设施,特别是 AI 中间层的发展,我们是否可以借鉴 SaaS 在国内的发展经验?对于这个 AI 中间层公司未来的潜力和机遇,老师们如何看待呢?
陈于思:我认为中国的 AI 中间层软件公司有两个主要机遇。首先,从国内的角度看,市场空间与最终市场息息相关。中国的企业应用软件市场相较于其他国家而言,市场空间可能相对较小,可能是几百亿或上千亿的规模。在这个市场中,细分领域的 SaaS 市场空间可能较小,但对于 AI 而言,我认为它的未来市场潜力将是非常巨大的。很少有人将 SaaS 视为产生工业革命级别机会的领域,而 AI 则被认为是一个具有巨大机遇的工业革命级别的领域。
在这个发展过程中,中间层软件公司将有很大的机会。在讨论 AI 和企业软件的 SaaS 时,我们可能在讨论两个市场规模相差几个数量级的机会。其次,在中国,这些中间层公司在当前阶段需要考虑如何扩大自身的生态和行业影响力,同时更迅速地实现商业落地。尤洋老师和潞晨科技在这方面表现相当不错,我期待尤洋老师的详细介绍。
第二点,我认为中国或华人开源的中间层机会,也可以放眼世界。在全球范围内,AI 仍处于相对早期的阶段。中国工程师的成本更低,我认为中国在开发软件方面与美国相比具有一定的性价比优势。全球化也是一个重要考虑因素,例如 OpenAI 的 GPT 在全球范围内引起了广泛的关注。AI 是在这个充分全球化、信息全球化的时代产生的产物。在 AI 领域的认知方面,虽然在基础模型领域存在一定差距,但在应用和开发者方面,中国与美国之间没有代际差距。一些早期以出海为目标的中国公司在认知上甚至可能更强,因此不一定局限于中国的市场,可以扩展到全球市场。
王铁震:于思提出了两个观点。首先,他认为与传统的 SaaS 行业相比,AI 的中间层面临的市场机会非常大。这种市场机会并不像 SaaS 那样局限于某一个地区,而是为中国的开发者提供了大量走向世界的机会。无论是从技术还是从成本的优势来看,我们都有很大的优势。其次,他认为在 SaaS 这个领域,中国的开发者也有很大的优势。我想知道,尤洋老师在整个 Colossal-AI 的发展过程中,是否有一些有趣的故事可以分享给我们?
尤洋:首先,我要分享一组数据,这些数据来自拾象科技的李广密。他发现 SaaS 付费率与一个国家的人均 GDP 有强关联。例如,美国的 SaaS 付费率大约为 7%,对应于其人均 GDP 的 7 万美元。欧洲和日韩的付费率约为 4%,与 4 万美元的人均 GDP 相吻合。中国的 SaaS 付费率约为 1%,与人均 GDP 的 1 万美元相吻合。印度的 SaaS 付费率是 0.2%,与人均 GDP 的 0.2 万美元相吻合。
在这组数据的基础上,我们可以做一些思考。首先,我们公司目前探索出了一条适合自身发展的道路。无论是 SaaS、PaaS,还是大型 AI 公司,我们都希望能做出一本万利的产品,让收入以指数级增长,人力则不必线性增长。
中国的 SaaS 在过去几年失败或者没有特别成功的原因是定制化需求过高,这也与中国的甲方文化有关。另一个重要因素是在过去十年的 SaaS 发展中,硬件或芯片的作用并不大。例如,我们不会通过观察阿里巴巴积累了多少 CPU 来评估其好坏。但在 AI 领域,底层芯片的效能对整个生命周期有重要影响。训练成本和产品迭代周期直接与底层芯片的效率相关。
所有大公司都在优化推理成本,因为他们最终想赚钱。模型调用的成本越低,模型使用的频率越高,微调训练的需求就越高。推理和训练是相辅相成的,训练包括预训练和微调。如果一个产品被频繁调用,它就需要频繁更新。
目前,我们主打自己的多位一体 Colossal-AI 和 PaaS 平台。Colossal-AI 主要针对规模不大、主要做微调的用户。PaaS 平台是针对稍微规模大一些的客户。我们现在也有一些世界 500 强和 2000 强的客户,他们有自己的算力,直接购买我们的企业版软件。通过这种方式,我们在 2023 年成功实现了几千万的收入。在公司亏损很低的情况下,达到了 60%以上的毛利率。下一步,我们将继续观察市场反馈,寻找扩大规模的机会。
王铁震:过去的 SaaS 可能需要高定制成本,因为强烈的甲方文化。但我的理解是,对 AI 来说,任务需求比较统一,如快速训练和推理。只要性能做好,甲方可以专注应用层开发。而且,PaaS 层有很多机会帮助甲方节省成本,甲方也愿意采购。
尤洋:我认为这一点至关重要。例如,我们公司最近想要建立一个奖金股权系统。我们研究了市场上的所有 SaaS 软件,但发现它们并不能很好地支持这个功能。因此,我们决定雇佣两个人来帮助我们编写代码。这就说明,有很多事情实际上是难以标准化的,并且很容易走向定制化的道路。当然,如果 AI 的基础设施层的 Transformer 能统一市场,那么它的接口最终可能会相对标准化。
王铁震:标准化接口有助于实现一本万利的商业模式,只需要在一个地方优化产品,就能卖给很多客户,这个市场有巨大的潜力。然而,也有一些观众提问,硬件公司最了解自己的硬件,如何看待自己做中间层工作的可能性。这实质上是之前问题的另一面,即我们看到应用层与中间层的配合非常好,那么从另一个角度来看,硬件层可能与中间层存在某种竞争或合作关系。
陈于思:这个我认为在技术栈中是常见的现象。例如,英伟达公司的整个 CUDA 软件栈,从底层的 CUDA DSL,到内核的优化,再到算子,它都有集成。也包括了训练的 deep speed 和 Megaton 框架,推理的像 tensorRT;对于框架层,不管是 Tensorflow 还是 Pytorch,实际上都有很多优化的支持。我想说的是,硬件公司可以完成很多模型侧的中间层工作。但是有两个问题,首先,他们只会优化自己的产品,你很难想象英伟达会去优化 AMD 或英特尔的软件栈。因此,跨平台有很多机会,尤其是现在大家都在试图打破英伟达的垄断。
最后,硬件公司本质上是做芯片的,中间层软件对他们来说是挑战。英伟达成功的地方在于它已经完全是一个系统公司和软件公司。但是其他硬件公司还是硬件公司,让他们去写优秀的软件是有挑战的。
所以,我认为,基于硬件的模型中间层优化还有很多机会。但是,从模型到应用的中间层,我认为硬件公司很难做到。因为这个领域的差距太大了,从硬件算法到应用,每个层都在变化。在这个时候,中间层有很多机会,但是长期可能要考虑的是,如果生态稳定了,中间层的长期壁垒在哪里。我认为这是创业或者入局需要深思的问题。
王铁震:对于 Nvidia 来说,其软件生态相对较好,可能会继续提升,但我们现在正处于一个充满竞争的时代。许多芯片公司可能还没有从纯硬件公司转型为硬件和系统公司,他们可能更希望与中间层合作,以使自己的软件生态更加完善,并更好地服务最终用户。这可能是硬件公司和中间层之间的合作关系,而不是竞争关系。
尤洋:英伟达之所以能取得今天的成就,主要是因为他们开放了软件,没有在软件层面上与他人竞争。据英伟达的数据,现在全球有 400 万个 CUDA 开发者,这是一个非常庞大的群体。而这 400 万人中,大部分并非英伟达的员工,我觉得正是这种合作力量,使英伟达取得了今天的成果。
如果我们再看看 AI 的中间层,从最开始的 Cafe 到 Tensorflow、Pytorch,这些成功的框架并非英伟达自己开发的。现在我们需要大规模分布式处理,这已经超出了英伟达最熟悉的领域。因为分布式处理涉及 GPU 之间的关系,GPU 和 CPU 之间的关系,服务器之间的关系,这不是一个硬件公司能够全面管理的。
英伟达的成功已经证明了硬件公司通过与软件公司合作是可以赚到大钱的。如果英伟达关闭了 CUDA 生态,我相信他们不可能取得今天的成就。因此,我认为硬件公司应该会做出理性的选择。我之前参加了一次华为升腾的会议,他们也希望能够开放升腾的生态。
创业者的机会
王铁震:我们过去在这个模型层看到的是,例如 Llama 在形成自己的生态,开放自己的模型,引入更多的开发者,共同建设这个行业,使得这个行业更好。硬件也是如此,需要有一个庞大的开发者生态共同开发,以使硬件销售更好,并围绕硬件开发软件。
当我们谈到应用侧的创业机会时,如果我们在 2024 年的推理和训练成本继续大幅下降,那么我们在 2024 年的应用层能看到一些什么样的事情?我准备了一些问题。首先,我想大家探讨一下,当前哪些行业可能有更多的大模型应用场景?他们会面临哪些挑战?很多人认为今年会是大模型应用的元年,因为大家对大模型的边界了解得比较清楚,而我们这些中间层让模型的成本大幅下降,创业者在这一年可以做些什么?难度如何?
陈于思:在我看来,大规模模型的商业化落地在过去的 2023 年更像是一个探索期。如今,全球的大模型公司,除了 OpenAI 外,所有公司的营收加起来可能都无法与 OpenAI 匹敌。这显然是因为模型能力还处在早期阶段,同时,商业化的探索也仍处在早期阶段。在此背景下,我们可以看到的是,无论是 ToB 还是 ToC,都有一些初步的落地应用。
在 ToC 方面,我们看到了一些工具类产品,如 OpenAI 的聊天机器人和一些情感陪聊类型的产品。这些初步验证了 AI 在社交领域的应用可能性。此外,在游戏领域,我们也看到了一些游戏化的探索,如网易的《逆水寒》AI 角色。
在 ToB 方面,我们看到了一些类似于搜索助手的产品。我相信,在 2024 年,随着大规模能力的提升和性价比的极大提升,我们将能看到更多的应用落地。OpenAI 的 GPT Store 就是一个例子,它是 AI 大规模商业化落地的一个探索,可能许多垂直化的领域模型都将基于 GPT Store 建立起来。
在 ToB 端,我觉得各家公司都希望拥有自己的 GPT。它们可以帮助企业利用自己的垂直数据来创建自己的大模型,或者使用类似 RAG 的搜索方式来创建自己的企业内部知识库。
我相信,AI 将在未来给 SaaS 带来极大的发展机会。一方面,AI 可以极大地提升 SaaS 在需求方面的自动化程度;另一方面,以前很多定制化的问题,可能可以通过 AI 的方式来降低定制化的成本。
然而,更多的 B 端应用需要模型基座的能力进一步提升,因为大模型本身还存在一些问题,比如幻觉问题,这可能需要使用一种混合方式,即在大模型的基础上叠加一些其他模型或方式来控制幻觉。但我相信,随着基座模型能力的提升,我们将能找到更好的方法来控制幻觉,开发更多的 B 端应用。
关于 2024 年的一些预测
王铁震:下面问下尤洋老师,从您的视角看,当前大模型的落地情况如何?您认为新的一年里,可以探索和应用大模型的领域有哪些?
尤洋:我们接触了很多客户,他们大部分都处于种子阶段。我发现有很多场景他们认为现有的产品或大模型都做的不足。例如,一个朋友想创业,他的产品是将论文转化为 PPT。这个需求非常强烈,无论在学校还是其他单位,如果能将报告迅速转化为 PPT,方便与同事分享,那将非常方便。但是目前我没有找到很好的产品,他正在考虑是否要自己训练一个模型。
另一方面,我也测试了一些文字转视频的软件,但效果并不理想。它们需要非常复杂的提示才能生成一个看得过去的视频。即使不提视频,我发现在生成图片方面也有很大的进步空间。我觉得 AI 的发展并没有那么快。ChatGPT 已经出来一年了,但我感觉使用最高配的 ChatGPT 生成的图片效果也不是很好。
我们还有很多事情可以做,至少在技术上,2024 年能做的事情还是很多的,目前 AI 在很多领域都远远没有达到我们的预期。
王铁震:两位老师预计今年大模型领域会如何发展?我们提到了大模型面临的一些问题,例如生成效果不佳和成本较高。你们认为哪些因素可能阻碍大模型的发展?什么是你认为的痛点?未来,在基础设施或大模型领域创业是否有机会?
陈于思:我对 2024 年充满期待,可以预见到的是 GPT-5 的出现,以及 Claude 3 的发展。更多的大型企业也将在这一年崭露头角。我认为过去两三年可能是融资的年份,一些头部公司,特别是美国的,可能已经筹集了数十亿美元的资金。2024 年,大家也应该开始交作业了。比如说,据说 OpenAI 去年他们已经实现了十五六亿美元的收入,今年他们能保持多快的增长?更强大的模型能否带来更好的效果?能否启动更多的应用?就像尤洋老师说的,我自己也经常使用 ChatGPT,但它画出的图形效果并不理想。有时候,你可能需要多次修改 prompt,这感觉就像炼丹。
2024 年,我们能否拥有更好的控制力?能否有更低的幻觉率?我期待这些变化。随着 AI 基础模型能力的不断提升,是否会有更好的 AI 原生 APP 出现?我们已经看到了一些雏形,包括 Character,Inflection,以及 Perplexity。那么,是否有更多的 B 端应用,如 AGI 的应用,GPT Store 等,我期待这些变化。
尤洋:2024 年,我们必须解决任何限制 Scaling Law 的问题,因为我们实际上并不知道模型的上限。目前,这确实是一个实验性的工程问题,我们需要看看能否发掘出更好的基础模型。我们三人刚才初步达成了共识,在图文生产领域,我们还能做的事情很多。首先,当前效果并不理想。我已经多次提醒 AI,但它似乎仍然无法画出我想要的感觉,这说明它的底层模型还不够好。其次,对于种子用户,他们并不打算训练自己的模型,而是希望使用 API。在这种情况下,我们需要看极致的成本优化和效率优化是否能为他们带来更好的体验。因为开放 AI 现在确实有初步的营收,但如果它想进一步扩大规模,单次 token 的调用是否能为那些真正部署 AI 应用的人带来更有价值的东西?
另外,我非常想看看 Llama-3 的效果如何,以及开源和闭源之间的差距是否会缩小。虽然现在 Llama 的效果很好,但我们无形中还是认为它们比 ChatGPT 差。如果 Llama-3 发布后,ChatGPT 没有太大的进步,或者我们感觉不到它们之间的差距,那会是一种什么样的局面呢?我们可以拭目以待。
王铁震:你们想给参与 AIGC 浪潮的年轻企业家或开发者提供一些建议呢?
陈于思:我觉得可以 All in。 AI 是一个非常大的机会。尽管我们现在还处于 AI 的早期阶段,就像 90 年代末的互联网或 2010 年代的移动互联网一样,但是只要在这个行业里深耕,找到好的方向,随着行业的整体增长,个人一定能够抓住很多机会。不要过于纠结于 ToB 还是 ToC 的方向,或者担心自己的 AI 应用被大公司抢先。就像张一鸣在创办今日头条之前,他可能做了十几个 APP,最后才发现了今日头条的价值。所以,关键是要尽快动手去做。
尤洋:我非常赞同陈总的观点,AI 未来将会像互联网和智能手机一样渗透到我们生活的方方面面,这是一个巨大的机会。当然,AI 也会经历低潮期,就像互联网泡沫一样。但就像互联网泡沫之后出现了 Google、Facebook、eBay 等成功企业一样,AI 行业在经历挫折后也将会诞生出更多有价值的巨头企业。
评论