AI商业化落地难？百度“杀”出新增长_百度_雷雨亭

AICon上海｜与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用了解详情 



 写点什么



1.0x 

大小：1.62M时长：09:25

在过去两年内，人工智能行业经历了一番风起云涌。

从大厂到初创公司纷纷参与的“百模大战”，到近半年的 token 降价潮，在这波 AI 繁荣中，大模型的构建与训练显然是业内最重要的风向标。参数量、榜单排名、新技术的 paper...大模型之间经历了一场隔空交手。

然而在近期，AI 行业的风向显然发生了变化。

大模型虽然拥有强大的潜力，但在实际应用中似乎遇到了“瓶颈”。热度背后，是市场上 AI 应用普遍面临的留存率极低的困局；而不少 AI 公司因为算力成本太高，陷入资金链断裂的风险之中。

所有的这些问题指向了一个解法——AI 如何真正实现商业化落地？这些强大的技术在实际场景中，到底应该扮演什么样的角色？

“应用”落地，成为 AI 行业一个亟待解决的问题。

在行业普遍面临困局之时，一家具有 24 年历史的“老牌”大厂，仍然依托 AI 保持着强势增长，百度网盘注册用户已超 10 亿，用户使用空间总和超过 1000 亿 GB，每年存储数据增幅超 60%，百度文库 AI 用户数累计超过 2.3 亿，AI 功能累计使用次数超过 28 亿。

被 AI 重构的百度，在用户量上实现突破性增长，成为 AI 原生应用落地的“领头兵”。

然而百度的脚步不止于此，AI 应用被提到了空前的高度。11 月 12 日，百度世界大会 2024 在上海正式召开，作为其年度最大的盛会，尽管提到人工智能已有多年，但这是百度首次以“应用来了”作为大会的核心主题。从赋能 AI 创作者到最前沿的技术，百度此次“上新”覆盖了 AI 落地的方方面面，充分向外界展现了其在人工智能行业的全新布局。

文库网盘双双联手，推出 AI 新物种「自由画布」

在大会上，一款新品引起了广泛讨论，由百度网盘+百度文库联合推出 AI 创作新物种「自由画布」，以其极为简单操作流程，仅需「一拖一圈」就可以实现 AI 创作的优势，吸引了全场的目光。

那么，为何「自由画布」如此受关注？

其实细数市面上主流的 AI 创作工具，几乎都有一个共同的痛点，即只能帮助用户完成创作的一个环节：撰写文案需要向 Chatbot 提问、画分镜需要用到文生图工具、而生产视频还需要用到图生视频工具、剪辑则更是传统......人们如果想使用 AI 来创作，往往需要并行处理多个软件，过程极为繁琐。「自由画布」的设计初衷，便是为了满足创作者 “一站式操作”的需求，整个过程极其丝滑。

只需要「一拖一圈」的极简操作，就能实现对多格式全模态文件的混合理解、生成、创作并支持对富媒体文档的一键分享和存储，为用户提供“创作、编辑、存储、管理、查找、观看、使用、分享”的一站式服务，涵盖了从创作起点到终点的全流程，兼容性极强、集成度颇高。

从细节上来讲，自由画布是如何打破限制的呢？这源于它在输入、编辑、创作、分享的整个创作闭环里，都实现了高度的“自由”。

在输入方面，日常工作中，与我们打交道的文件格式其实高达 100 多种，用户的大量时间都被浪费在解决格式兼容性上。「自由画布」的优势在于，其能够理解、处理和展示绝大部分常见的格式，用户不再需要用不同平台处理不同格式，再切换、跳转，仅在这一个平台就可以完成全模态的输入和处理。

在编辑方面，尽管市面上已经有不少 AI 产品都支持上传文件、图片、音视频来进行交互，但在实际使用中，用户并不是每次都需要用到一整篇文章、或者是一整个视频，很多时候只需要调用文件的某个“片段”。「自由画布」支持对内容进行局部或者整体的调用，用户只需要输入自然语言，就可以命令自由画布找到文件内对应的部分来进行调用，不再需要逐字修改编辑和排版。

在创作方面，用户需要的内容形式也往往非常多样，面对不同的场景，有时候需要文案、有时候则需要视频，而内容风格也可能严肃、幽默或者娓娓道来。目前市面上大部分产品，尽管加入提示词的引导，也很难完成非常优秀的效果。其实从技术层面来说，这并不是一个无法攻克的难点，而是大多数 AI 产品在生成层面，只是简单的进行输入和输出，并不能完全发掘大模型的潜力，如果想要实现好的生成效果，让产品理解“小红书文案”和“微博文案”的区别，则需要对用户输入的内容进行“深度理解”，「自由画布」通过多个模型组合调用，以 MoE 的方式加之百度自身的工程能力，让生成内容完成度更高，基本覆盖了内容创作需要适配的所有场景，大幅度减少了用户对 AI 生成内容的“二次修改”。

在分享方面，「自由画布」也拥有非常丰富的分享链路，可以通过一个链接直接进行分享、查看、二次编辑，也可以一键存储到个人网盘中，极大方便用户。

从内容生产到内容消费，「自由画布」实现了内容创作到消费的全链路闭环，曾经需要在一天或者两天内完成的工作，使用「自由画布」则可以实现分钟级搞定，用户可以在「自由画布」上享受到极致的自由。

大模型重构百度，打通内容生产到消费全链路。

「自由画布」的诞生并非偶然，其实在业内早就有期待。

纵观百度的商业布局，本身在发展人工智能方面就有着强大的潜力。我们知道，AI 无非考验几个方面：算力、算法、数据集、应用。

算力和算法层面，百度有国内首屈一指的云服务平台百度智能云坐镇。而在数据集侧，百度文库拥有 14 亿公域的权威专业文档，是国内最大、对大模型来说可用性最高的资料库；而网盘作为国民级应用，又存储着大量私域的数据。「自由画布」的诞生，正是百度利用自身优势，在应用侧下的一步棋。

文库、网盘的联手，本质上是让产品的边界发生了变化。文库不再只是上传、下载资料的平台，也可以成为 AI 时代的生产力平台；网盘也不仅仅负责“存储”，个人授权的私域内容摇身一变成为大模型推理的素材，成为“二次创作”的灵感来源，而通过「自由画布」创作好的内容，又可以再次回存到百度网盘中。文库、网盘的全面融合，颠覆了整个内容行业，实现了从内容生产到内容消费的全链路革新，成为真正可以商业化落地的智能生产力。

重磅发布新技术 iRAG，文生图更加可控

除了新产品，百度在 AI 应用方面的布局也包括技术层面，本次世界大会上推出检索增强的文生图技术 iRAG，大幅提高了 AI 生图的可用性，同样成为会议焦点。

在文生图这个细分赛道，对比文本类模型“幻觉”问题更加严重；此外，大多直接输入提示词的文生图工具，也时常被吐槽“机器味儿”太重。目前主流的方法来说，想要克服这两个难点，需要使用 ComfyUI、WebUI 这类工具，要调用多种模型、学习搭建工作流、再寻找插件等方式，才能实现不错的生成效果，但对于大众用户来说还是有不小的技术门槛，这些都阻碍了文生图领域的商业化。

但是百度的检索增强的文生图技术 iRAG 则顺利解决了这个问题。我们知道，RAG 指的是检索增强生成，是当下热门的大模型前沿技术之一。RAG 可以提高大模型生成内容的准确性、专业度，并且提高其扩展性，使其灵活地应用于不同的领域和任务。

具体来说，当模型需要生成文本或者回答问题时，它会先从一个庞大的文档集合中检索出相关的信息，然后利用这些检索到的信息来指导文本的生成，从而提高预测的质量和准确性。

目前大多对话类 AI 产品，都添加了类似于“高级搜索”的功能，其背后采用的技术便是 RAG 技术。比如说文心一言的检索增强，就是采用「理解-检索-生成」这个步骤，来实现联网搜索，保证生成效果的时效性。

而 RAG 技术的使用场景，大多还是针对的还是文本类模型的推理与应用，百度推出的 iRAG 就是针对文生图赛道使用这项技术。

首先在思考阶段，基于大模型对用户的需求进行分析理解，自动规划精确或泛化方案，比如对哪些实体进行增强；接着在增强阶段，对需要增强的实体，检索并选择相应的参考图。最后在生成阶段，百度自研了多模可控文生图大模型。

iRAG 技术的应用，大幅降低了文生图的门槛，用户只需要输入最基础的提示词，即可输出堪比专业 AI 创作者作品的优质内容，优质内容的量产则促进了文生图赛道的商业化应用。