零一万物李开复：要做ToC的超级应用，成为AI 2.0时代的微信、抖音_AI 工程化_褚杏娟



 写点什么



大小：1.71M时长：09:56

“我们在 3 月底官宣零一万物，后面团队逐渐到位，6、7 月开始写下第一行代码，历时短短 4 个月时间，今天我们非常自豪地宣布产品亮相。”李开复在另一万物首款大模型发布会上说道。“从创立零一万物第一天开始，我的目标就是做一个世界级公司，能够进入世界的第一梯队。”

自四个月前李开复宣布大模型创业，业内就给予了众多关注。千呼万唤，李开复交出了第一份答卷。11 月 6 日，李开复带队创办的 AI 2.0 公司零一万物正式开源发布首款预训练大模型 Yi-34B 和 Yi-6B。Yi-34B 是一个双语（英语和中文）基础模型，经过 340 亿个参数训练，明显小于 Falcon-180B 和 Meta LlaMa2-70B 等其他开放模型。

对于模型尺寸的选择，零一万物团队认为，34B 是一个黄金尺寸。虽然 6B 也能在某些领域，比如客服上可用，但模型毕竟越大越好，但随之而来的就是推理成本和后续训练的系列资源问题。

“34B 不会小到没有涌现或者涌现不够，完全达到了涌现的门槛。同时它又没有太大，还是允许高效率地单卡推理，而且不一定需要 H 和 A 级别的卡，只要内存足够，4090 或 3090 都是可以使用的。”李开复解释道，“既满足了精度的要求，训练推理成本友好，达到涌现的门槛，是属于非常多的商业应用都可以做的。”

另外，李开复提到，通用模型决定了行业模型的天花板。虽然行业大模型有相当大的价值，但是底座如果不好，也无法完成超过底座的事情，所以选底座就要选表现最好的底座。李开复自信地表示，“今天我们在中英文上就是最好的底座，没有之一，也希望更多人选择 Yi-34B。”

如何解决算力和数据问题

“模型团队非常重要，但并不是雇 50 个人、100 人就能解决问题，而是需要很强的团队。这通常不是很大的团队，团队做得太大了反而会分散 GPU 资源。”李开复说道。零一万物认为，人均 GPU 卡能用到多少决定了模型能力的上线。

零一万物内部建立了一个 AI Infrastructure（人工智能基础设施技术，简称“Infra”）的团队，成员来自国内顶级公司、国内外顶级高校和跨国公司，负责大模型的研发。

在预训练阶段，高价值数据是最重要的，为此零一万物在数据处理上投入了非常大的精力。

首先，零一万物通过采购、合法爬虫、开源等渠道获得训练模型数据。面对庞杂、质量不齐的数据，团队会先用 AI 能力进行系统化筛选，之后再做人工评估，基本会从一百多 T 数据里留下 3T 左右，包括一定比例的中英文数据，该数据保留率是其他厂家的 1/10 左右。

在训练中，Infra 团队花了很长时间研究 scaling law，即模型的预测能力。“我们不做各种试错，因为 GPU 资源非常昂贵，所以我们是要把规模化做好，当推到下一个尺寸时不要再摸索和试错了，因为尺寸越大成本越高。“李开复介绍道。

Infra 团队表示，整个模型训练过程其实是动力学过程，中间每一步基本上都可以通过数学方式预测出来，而不需要做大量的实验。因此，团队可以将每一千步的误差控制在千分之几范围内。不管是做数据匹配、超参搜索，还是模型结构的试验，这个方法都特别重要。

Infra 团队在 6B 上做各种实验优化算法和模型，并能丝滑地从 6B 推向 34B。借助该能力，Yi-34B 的训练成本下降了 40%。

“我们将这一整套的训练平台称为科学训模。很多人把训练大模型比做‘炼丹’，也有人说模型训练一下就飞了，因为它没有收敛。我们做的规模预测用数学科学可以推理，小的尺寸如果能成功，大的尺寸也大概率可以成功，我们实验后也成功了。”李开复表示。

关于算力资源，零一万物在很早时候就做了资源规划，现在的算力储备可以支持其用到 18 个月以后。另外，团队还建立了故障预测与故障解决大模型，利用模型本身为预训练过程中可能出现的问题设计相应的解决方案，以及如何以最低成本解决这个问题。

对于预训练，零一万物技术副总裁及 Pretrain 负责人黄文灏表示，过程中并没有特别关注指标，因为针对指标做优化也可能出现问题，所以内部会有很多衡量模型能力的方法。比如模型到底压缩了哪些信息和知识是一个值得关注指标，但只要训练数据足够高质量，training dynamics 做得足够好，出来的模型效果自然会比较好。

另外，由于要将模型开源，零一万物在训练模型时还注重模型在 IQ 和 EQ 方面的均衡性。团队想要模型既可以支持代码推理类任务，也可以支持情感类任务。

开源长窗口通用模型

之前的长窗口工作都是闭源的，无论是 OpenAI 的 32K 或者 Cloud 的 100K。零一万物发现，开发者有大量基于长窗口模型进行微调的需求，因此这次直接开源了长窗口的 base 模型，开发者可以根据自己的数据去微调有效的长窗口应用。

一般来说，更长的窗口会带来更多的计算，计算复杂度也会指数级上升，还要解决数据完备度的问题，这些都对计算、显存、内存和通信等都是非常大的技术挑战。另外，随着窗口越来越长，计算所需时间也越来越长，一旦端到端的反馈时间太长也就没有太大的意义了。因此，大部分模型都会限定窗口大小，零一万物限定了在 200K 以下。

技术团队进行了全栈优化，包括计算跟通信的重叠堆叠技术、序列并行的技术、通信压缩技术，包括里面关键算子的重构等。虽然后续还有进一步拓宽的余地，但考虑到实用性和成本的均衡，团队目前就开源出来现在的长度版本。

李开复表示，开源对推动世界技术革命的发展有着非常重要的意义。“很多人觉得大模型需要超级多的资源，只有 OpenAI、微软、谷歌、阿里、百度、腾讯这样的公司才能做，但是任何技术都是需要全球化的参与，那么开源让大家都有机会能够接触到大模型。”

“这两个模型的尺寸其实就是量身定做给开源社区使用的，资源多的可以用 34B，但是也不会需要特别不合理的资源，而 6B 可以让更多的开发者能够使用。”李开复称。

对于未来会不会开源更大模型的问题，零一万物技术副总裁及 AI Infra 负责人戴宗宏表示，这不取决于零一万物有没有更大的模型，而是取决于开源社区里的普通开发者有没有能力，或者有没有那么多的资源用到这样的大模型。“如果在摩尔定律之下，更便宜的卡可以支撑更大的模型，我们一定会考虑把我们更大的模型开源。”

做 ToC 的超级应用

“我们对于未来的一个愿景就是，大模型时代不仅仅是人类跨向 AGI 的重要一步，它也是一个巨大的平台机会。”李开复认为，这个机会就是创造超级应用。

李开复解释称，如果说 PC 时代赋予给开发者用户的机会是 computer on every desk，移动互联网带来的机会是随时随地的计算，smartphone on every hand，那么现在的 AI 2.0 时代带来的巨大机会就是把一个超级大脑对接和赋能给每一个应用，即 AI for everyone。

“PC 时代，微软 Office 就是超级应用；移动互联网时代，微信、抖音是相当好的超级应用；AI 2.0 时代，毫无疑问最大的商机也会是超级应用，所以这个方向是零一万物努力的目标。过去的两个时代值得借鉴，因为人类历史就是不断重复，每一个时代最大的机会跟上一个时代是可以推延的。”

李开复的考虑是，首先一切的基础是大模型。“我觉得未来的内容应该主要是由 AI 来创造，人来帮忙，这个才是王道。所以我们 Super APP 开发第一点就是 AI First、AI Native，没有大模型整个产品就不成立。”

其次，商业化非常重要。AI 1.0 公司面临的挑战主要就是商业化问题：要么收入没有做好，要么缺乏持续化收入。“字节、阿里、百度、谷歌、Facebook 能够成为伟大的公司，就是因为他们的收入是有质量的。”李开复说道，“所以我们做的应用一定是朝着能够快速有收入，而且能够产生非常好的利润、收入是高质量的、可持续的，而不是一次性在某一个公司上打下一个单子。”

李开复表示，AI 2.0 时代的超级应用一定是在消费者级别的 ToC 超级应用。他透露，Super App 的雏形将在不久后对外发布。对于这个 Super App，团队会从简单的功能开始，然后根据捕捉到的用户需求和技术精髓不断迭代。此外，该应用虽然面向国内，但也会面向国外市场。

“今天创业者最好的机会是在 AI 2.0 上面开发 App，如果找对机会、聪明快速勤奋地迭代，任何一个 App 都有机会成为 Super App，成为 AI 2.0 时代的微信、抖音。”李开复说道。

未来规划

对于未来，零一万物表示，一方面会继续在 34B 规模上进行一系列开源动作，另一方面会进一步提高模型的智能极限。

“我们已经在训练千亿参数以上模型，但是我们觉得模型参数可以再提高一到两个数量级，达到万亿或者十万亿的规模。数据上，我们现在基于几十 T token 的高质量数据，未来还可以提高到几百 T 或者几千 T。模型智能还是有很大的发展。”据悉，零一万物现在已经在训练千亿模型，更大模型的所有前置实验也已完成，剩下的就是按部就班地训练。

此外，零一万物已经有了一个超过十人的多模态方面的团队，未来一两个月内也会有相关产品发布。多模态已经纳入公司更长周期的规划中。

发布

暂无评论

促进软件开发及相关领域知识与创新的传播
关于我们
我要投稿
合作伙伴
加入我们
关注我们
联系我们
内容投稿：editors@geekbang.com
业务合作：hezuo@geekbang.com
反馈投诉：feedback@geekbang.com
加入我们：zhaopin@geekbang.com
联系电话：010-64738142
地址：北京市朝阳区望京北路9号2幢7层A701
InfoQ 近期会议
上海 · QCon 全球软件开发大会 2024.10.18-19
北京 · AICon 全球人工智能开发与应用大会 2024.12.20-21
全球 InfoQ
InfoQ En
InfoQ Jp
InfoQ Fr
InfoQ Br

创作场景