写点什么

比帮你写代码更爽的是:让 Agent 来打工|对话 AI 原生《云智实验室》

  • 2025-01-14
    北京
  • 本文字数:6430 字

    阅读完需:约 21 分钟

大小:3.27M时长:19:03
比帮你写代码更爽的是:让Agent来打工|对话 AI 原生《云智实验室》

大模型演进至今,大家一直在等待一个杀手级应用,Agent 的出现正在让这一构想成为可能。Agent 能将大模型的强大能力与实际业务场景结合,实现更加智能化和个性化的应用。百度智能云千帆 AppBuilder 作为基于大模型的企业级 AI 原生应用开发工作台,全面覆盖从创意到部署的高效 AI 应用开发需求,精准解决大模型技术向实际应用转化的“最后一公里”难题。那么,从传统应用开发到 AI 原生应用开发,其中的逻辑发生了哪些变化?千帆 AppBuilder 是如何助力企业提升生产力,加速应用开发的?未来,企业级大模型应用开发平台将如何进化?带着这些问题,在《对话 AI 原生:云智实验室》栏目中,百度智能云千帆 AppBuilder 产品负责人朱广翔与 InfoQ 总经理王一鹏展开了一次深度探讨。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    以下为本期栏目精华内容


    InfoQ:大模型技术引领千行百业转型升级的同时,也颠覆了应用开发范式。从传统应用开发到 AI 原生应用开发,其中的逻辑发生了哪些变化?在大模型时代,我们需要一个什么样的应用开发平台?


    朱广翔:自己有幸经历了小模型时代到大模型时代这个历程,还是非常有感触的。我从初中开始写代码,一直写到博士毕业也快 20 年了。但是大模型出现之后,终于不用再写代码了。现在基本上用一些低代码工具,甚至用语言对话就可以直接把应用做出来,这是我从来没有想象到的。不仅我有这种感受,其实我们周边的人都有这种感受。


    就像在计算机专业有一个流行的梗:“就差一个程序员了”。意思是说,在团队合作里边,程序员这个角色往往是不可或缺的。而现在,真的是可以缺少程序员了。在百度,每年都会举行一个创意大赛“Hackathon”,过去,基本上一支队伍里有 PM、研发,还有一些产品设计同学。最近两年发现,很多团队真的是没有程序员了,只有纯 PM 和设计师就可以组成一个队。只要有创意,就可以去做一些应用。


    通过这个例子发现,大模型时代的到来其实改变了整个应用开发模式。顺应这个模式,大模型到底带来了哪些核心的变化?总结来看,主要是四个方面:


    第一,降低开发门槛,提升开发效率,主要是降本。对比大模型和小模型,从原理上讲,大模型在做数据分析、信息处理时,它对语言的理解非常深入。以前小模型需要做很多语言规则,分词、打标,经过一系列复杂的流程,最终才能把一个语言信息做好向量化,再去用于后续处理。在语言生成方面其实也有很大的问题。之前很难生成一些像人一样非常流畅的对话,还是比较机械的,总是需要我们后续去做些结构化的修修补补。这种情况下,效率就非常低,需要花很多精力去做各种前处理、后处理,浪费很多时间。


    企业开发中的小模型和大模型之间存在明显的区别。百度搜索信息流有很多关于信息处理的任务,比如数据的分类打标、信息检索。这些任务可能包含几十个任务,每个任务都是准备一批数据训练小模型做对应的任务,是个烟囱式的,一个一个纵向地去发展。随着大模型的出现,这些任务可以被整合到一个统一的底座中,通过一批总体数据来训练模型,从而解决各个任务的问题。这样,企业无需每个部门投入大量 IT 人员,而是可以设立一个相对公共的 IT 团队来提高整体效率。


    第二,增强效果。和大模型相比,小模型在语言理解、推理、生成以及执行任务等方面的能力相对较弱。就像我们经常去测算大模型的容量,其知识量相当于全地球的人阅读 60 年的书,可以说是“天上一天,人间一年”,大模型思考一秒可能就相当于小模型或人类思考几年、几十年,它的能力非常强。大模型不仅能回答问题,还能深度解决问题,它可以发起任务,调用一些系统工具执行流程,并最终获得结果。不仅告诉你怎么做,而且帮你做好。


    第三,改变交互。以往的交互主要依赖于图形用户界面(GUI)的操作,点点选选,而大模型采用的是基于语言的对话交互方式,能够更好地满足长尾需求。比如,过去我们很难记住一个系统中二级目录或三级目录的具体内容,通常只能看到界面上首页的几个按钮,许多长尾需求因此被掩盖。而大模型的出现使得语言对话成为可能,类似于从传统的门户网站发展到百度搜索,用户可以通过输入关键词来发起问答,模型会帮助分发问题并指导使用适当的工具或功能来解决问题,从而提高效率。这种交互方式的变革让用户路径发生了翻天覆地的改变。


    以上三个方面总结来看其实都是+AI 的方式。第四种就是 AI+——先有 AI,AI 原生了一个业务。举个例子,以前大家制作 PPT 基本是先搜索一堆素材,再进行拼接和修改,最终制作出一份完整的 PPT。如今,像百度文库可以端到端的直接生成 PPT。再比如,在编写代码方面,过去仅有一些代码提示和检索等辅助功能,而现在,百度的 Comate 可以自动生成代码,这在以前也是不可能的。此外,千帆 AppBuilder 最近为很多教育用户做拍照解题,以前有拍照搜题,如今借助大模型,它在拍照之后不仅能给出问题的答案,还能详细阐述解题的推理过程、各种思路和流程。这实际上是一个推理生成的过程,这种应用在以前是完全不存在的,是 0-1 的过程。


    总的来说,大模型带来的核心变化体现在四个方面:降本、增效、改变交互、发现新机会。


    InfoQ:在 2024 百度云智大会上,千帆大模型平台宣布升级到 3.0 版本,对比 2.0,千帆 AppBuilder 有哪些主要升级点?这些升级对于企业开发 AI 应用来说,带来了哪些新的可能性和变化?


    朱广翔:千帆 AppBuilder 从 2.0 到 3.0 主要实现了两大升级点:第一个是企业级 RAG(Retrieval-Augmented Generation),第二个是企业级 Agent。


    RAG,即检索增强生成,它利用搜索技术强化大模型的知识源,从而降低幻觉,增强知识回答的客观性和可解释性。举个形象的例子来对比 RAG 和裸模型(纯大模型):裸模型类似于闭卷考试,面对问题时只能依靠事先学好的知识进行回答,如果知识储备不足,就可能出现“不知道答案只能乱写”;而 RAG 类似于开卷考试,面对问题时可以去网上搜索、查阅资料,找到大量参考素材,基于这些素材和原始问题进行阅读理解,从而给出更加准确、有据可依的答案。


    Agent 和裸模型的对比就类似于人与猿的对比。人类之所以区别于其他动物,是因为人类拥有复杂的思考过程,能够指导自己的行为,并且能够使用各种工具。Agent 就像拥有一个中控核心大脑,它能够思考如何将原始任务拆解为子任务,然后逐步完成。在这个过程中,Agent 会根据任务类型调用相应的工具,借助各种工具来扩展自身的能力,就像“长出三头六臂”一样,拥有更多解决问题的能力。


    InfoQ:当前,RAG 技术的受欢迎程度在工业界、产业界和学术界正逐渐成为共识。而随着企业级 RAG 技术的发展,它在特定场景下的应用潜力日益凸显。根据您的观察,企业级 RAG 技术的核心能力是什么?这些能力将重点解决哪些场景下的问题?


    朱广翔:企业级 RAG 主要解决的是企业在应用 RAG 技术时所面临的问题。例如,一个企业可能承载着整个单位或组织的所有信息和知识,文件数量庞大。在个人电脑上可能有几千份文件,而在企业中可能有几千万甚至上亿份文件。这些文件并非静态存放,而是动态变化的。员工随时可能提出问题,系统需要能够迅速检索并召回相关文件,快速给出答案,并且保证服务的稳定性,无论有多少人访问,都能稳定地提供服务。这种非常稳定、高效、海量的知识管理、存储架构和检索效率,其实是企业级 RAG 核心解决的问题。


    企业级 RAG 也充分发挥了百度的长处。百度 20 年来一直专注于搜索,拥有非常领先的搜索架构经验以及丰富的搜索内容。千帆 AppBuilder 主要从搜索技术经验和内容上增强了 RAG 能力。从技术层面来看,千帆 AppBuilder 利用搜索对知识进行解析、切片、增强,实现高效的在线检索召回,并与大模型结合快速总结答案、生成最终结果。这套流程快速、准确,处理量大,并且实现了一个无限容量的 RAG,无论多少文件都可以存储。我们利用云技术实现在线存储,并支持弹性的扩缩容。业务是变化的,今天存储了 100 万份文件,明天可能变成 10 万份,后天又可能变成 1000 万份。为了让企业拥有更高效、更高性价比的存储方式和检索方式,千帆 AppBuilder 支持业务量大时扩容,量小时灵活地缩减容量,这种上量和下量的能力也是千帆 AppBuilder 的特色。这是搜索技术架构给千帆 AppBuilder 带来的增强。


    此外,搜索内容也带来了增强。百度搜索拥有丰富的内容源,如百度文库、百度百科以及一些官方的积累了 20 年的内容。利用这些内容源来补充企业的知识源,这也是企业级 RAG 的一个特色。


    除了以上两点,企业级 RAG 还解决了一个核心问题,就是企业的数据一定要安全。一方面是内容安全,内容要合法合规。文心是国内第一批获得国家合规认证的大模型,结合文心大模型的安全能力,千帆 AppBuilder 全面增强了内容输出的可控性。另一方面是数据传播安全,数据需要隔离。无论是在公有云上实现虚拟隔离,还是购买一个专属机房实现物理隔离,甚至直接将机房部署到本地,这几种模式都是用最强的安全技术去强化数据安全。


    此外,企业级 RAG 还具备对多元信息的处理能力。企业内部存在多种内容源,复杂之处在于企业有许多部门,每个部门都有自己的数据管理方式、管理系统,存在各种知识库、数据库、接口,而且数据格式也非常复杂,包括图文、数据、表格、代码等。千帆 AppBuilder 对各种来源、各种信息的解析处理都进行了特定的优化,提供一个开箱即用、业界领先的效果。在基础效果之外,千帆 AppBuilder 还提供了丰富的工具链。用户开箱之后,可以利用工具链根据自己的场景化数据进行面向场景化的调优,实现更极致的效果。


    百度是国内第一个发布大模型的公司。大模型发布之后,当其他公司在发布大模型的时候,百度就在做 RAG,并且积攒了很多经验。经过我们调优后,效果可能从 90 提升到了 99,实现了 9 个点的增长。研发团队积攒了大量经验,现在都将其产品化,变成一个一个原子可调的接口,这就是之前提到的工具链。开箱之后,还可以基于特定场景和业务,利用这套工具链达到场景化的极致效果。


    InfoQ:随着 AI 应用的不断进化,Agent 已经成为 AI 应用的最主流形态,即将迎来爆发点。在云智大会和世界大会上,千帆分别发布了自主规划 Agent 和工作流 Agent。这两种 Agent 有何区别?它们分别解决了哪些场景问题?


    朱广翔:这种分类主要是为了区别它们的使用场景。举个例子,一名市场营销专业的大学生相当于自主规划 Agent,他在学习期间掌握了一些基本的技能,能与人沟通,并具备一些基本的学科常识。无论面对什么样的客户,他都能很好地获取客户信息,深入了解客户需求,并最终推荐相应的产品。面对不同的人,他能够灵活应对,这体现了他的基础素质。这就是自主规划 Agent,它比较自主、智能和灵活。


    另一类是工作流 Agent。假设该学生毕业后进入企业,企业将他培养成一名专业化的销售人员。经过一系列销售培训,企业告诉他公司的流程,教他如何面向客户,用什么样的话术引导客户,以及如何逐步引导客户从需求沟通到产品推荐,最终促成客户付费下单。这一套流程实际上可以称为“套路”。无套路 Agent 其实就是自主规划 Agent,工作之后有了套路,心中有了一套行为框架,会沿着框架逐步开展工作,这就是工作流 Agent。相当于把工作流写入到大模型的“大脑”中,使大模型的对话过程和生成过程能够按照既定流程和企业的 SOP(标准操作程序)进行。


    企业复杂业务流程的场景,选择工作流 Agent,把“套路”写入大模型脑子里,更稳定、可控。灵活智能、需要低门槛开发的场景,选择自主规划 Agent,把更多思考规划的工作交给大模型。


    InfoQ:千帆 AppBuilder 作为企业级 AI 原生应用开发平台,目前在哪些场景中实现了快速落地?这些场景中,千帆 AppBuilder 是如何助力企业提升生产力,加速应用开发的?是否有一些成功的案例可以与我们分享?


    朱广翔:千帆 AppBuilder 落地的客户主要分为两大类。第一类是泛互联网和泛科技行业的客户。这些客户的业务模式为 2B2C,他们拥有自己的 C 端用户群体。我们为这些客户提供服务,进而支持他们的 C 端用户使用最终的产品功能。例如,在泛互联网行业中,污水宝是一家专门处理招标文件的公司,拥有海量招标文件。千帆 AppBuilder 通过企业级 RAG 技术帮助它托管成千上万的文件,实现快速检索相关招标文件,并根据结构化信息让大模型总结生成报告等。此外,硬件企业酷旗是国内最早从事硬件开发的团队之一。千帆 AppBuilder 为其提供了工作流 Agent,针对其众多硬件产品,如闹钟、手表、耳机、音箱、大屏等,我们根据不同硬件场景和需求设计了相应的工作流和智能体。无论用户提出何种问题,它都能灵活地根据场景进行判断,例如是进行闲聊、播放音乐,还是唤起某些系统功能。


    第二类客户是央国企和政企客户,这些客户涵盖多个行业,如政务、能源、工业、金融等。例如,千帆 AppBuilder 与北京大学联合开发了一款名为“小北学长”的应用。在学生时代,大家面临一个痛点:查询课程信息需要访问课程系统,查询成绩需要访问成绩系统,查询其他信息需要访问教务系统,浏览新闻需要访问官网,甚至需要查看邮箱、群消息等,信息分散在各处,给学生带来不便。千帆 AppBuilder 利用大模型将分散在各处的几十万条信息,通过企业级 RAG 的能力进行托管,实现快速问答和知识检索。这个小助手并非像传统搜索那样简单地输入一个词然后给出答案,而是具备深度思考的能力。比如,我问了一个很复杂的问题:推荐重庆人去北大哪个食堂?它需要先思考重庆人的口味特点,然后找到相应提供这种口味的食堂,提供答案。这是一个推理加生成的过程,大模型具备这样的能力,比简单的搜索更进一步。在媒体行业,澎湃新闻积累了 2700 万的媒资,千帆 AppBuilder 也是通过企业级 RAG 使其在媒资管理上能够快速获取信息。


    再举一个 Agent 的例子,中卫慧通是一个服务于基层公务员的团队,它采用的智能体是自主规划 Agent,没有那么多套路,就是帮老百姓办事。它预制了许多功能,如一键报案、查询政策、查询信息等。在许多基层地区,尤其是在乡镇和农村,村长和基层公务员数量有限,但老百姓众多。有时,许多外地务工的老百姓回乡后,会咨询异地就医、孩子上学等问题,这些问题相对复杂。但这些问题实际上在政府网站的一些文献中已有答案了,需要有人将供给和需求进行匹配,大模型就办了这个事。千帆 AppBuilder 开发的智能体上线后,覆盖了 18 个区县,服务了千万居民,每天有 800 万次的咨询量。以每个公务员每天能回答 200 个问题来计算,相当于有百万公务员在服务,极大地提升了基层治理的效率。


    InfoQ:展望未来,企业级大模型应用开发平台将如何进化?千帆 AppBuilder 在未来又有哪些令人期待的规划?


    朱广翔:关于下一步,我们也一直在思考,有几个方向特别重要。


    第一个方向是多模态。当前正处于信息爆炸的时代,信息形式不再局限于文本,还涵盖了音频、视频、图像等多种类型。为了顺应这一趋势,千帆 AppBuilder 将平台向多模态领域拓展,支持各种多模态的 RAG 和多模态的智能体。


    第二个方向是大模型和小模型的融合。虽然现在是大模型时代,但小模型并非完全失去价值。例如,在人脸识别、OCR(Optical Character Recognition)等传统领域,小模型依然表现出色且稳定。小模型还有一个重要优势就是速度快,因为它资源消耗少,计算也快,成本更低,对企业来说性价比更高。对于一些简单的查询任务,如之前提到的硬件场景中,酷旗为儿童设计的手表,儿童提出的问题可能较为简单。在这种情况下,它其实不需要用那么强大的模型,可以采用小尺寸模型进行任务分发和分类。对于大模型和超大模型,我们可以采用一种策略,允许用户根据自己的业务需求,自行 DIY 将各种模型组合起来,以实现最佳的效价比,既能保证效果,又能确保性能,满足用户的使用需求。这也是我们在努力去突破的一个方向。


    除了以上两个方面,目前我们所开发的各种智能体、RAG 等,基本上还停留在 ChatBot 阶段,主要以对话框或搜索框的形式呈现。但实际上,企业实际需要的应用往往较为复杂,包括各种较为复杂的管理模块。因此,我们也在积极推进从对话形态的应用向 LGUI(自然语言+图形界面)形态应用的升级。千帆 AppBuilder 所搭建的应用将不仅仅是一个对话框或一个 Bot,而是一个真正的 APP,无论是移动端的 APP、电脑端的 Web 门户页面,还是类似于企业级 ERP、HR 系统等复杂应用。只有这样,才能在企业中真正实现智能化和数字化转型,打造出一个能够被企业广泛应用的大型系统,大国重器。

    2025-01-14 16:195431

    评论

    发布
    暂无评论

    融云集成之避坑指南-Android推送篇

    融云 RongCloud

    音视频

    融云即时通讯SDK集成 -- FCM推送集成指南(Android平台)

    融云 RongCloud

    即时通讯

    San CLI 的实现原理

    百度Geek说

    cli service san command

    高质量、高并发的实时通信架构设计与探索

    融云 RongCloud

    架构 通信

    CodeHub#4 前情预告|H5 容器在技术实践中的应用

    蚂蚁集团移动开发平台 mPaaS

    html5 移动开发 codehub 教育科技

    你的终端从未如此优雅

    Kareza

    终端工具 3月日更 Hyper

    技术债是什么、怎么还?你想知道的都在这一篇文章里了!

    禅道项目管理

    技术 技术债 问题

    对标阿里P7Java架构师面试题,已助我拿下字节、蚂蚁、滴滴三家Offer

    Java架构之路

    Java 程序员 架构 面试 编程语言

    DataPipeline亮相“2021科技助力湾区数字金融发展峰会”,解锁“实时数据管理”密码

    DataPipeline数见科技

    Redis和Memcached的区别

    赖猫

    redis memcached 服务器开发 Linux服务器开发

    嵌入式技术与人工智能有什么关系?

    cdhqyj

    人工智能 嵌入式 系统 科技

    ​Web攻击怎么办?安全防护有方案

    安全

    知道Python中的字符串是什么吗?

    华为云开发者联盟

    Python 编程语言 字符串 字符

    融云即时通讯SDK集成 -- 国内厂商推送集成踩坑篇(Android平台)

    融云 RongCloud

    即时通讯

    WebRTC服务器模型

    赖猫

    音视频 WebRTC

    并发编程-原子操作CAS

    赖猫

    c++ 高并发 并发 CAS Linux服务器开发

    为啥你一入场就开始跌呢?聊聊长期主义

    池建强

    长期主义

    叹服!微软自爆虐心405页程序员面试通关手册,Github上已获赞75.6K

    Java架构之路

    Java 程序员 架构 面试 编程语言

    网易游戏基于 Flink 的流式 ETL 建设

    Apache Flink

    flink

    粉丝福利 | 秒 get 支付宝同款扫码组件

    蚂蚁集团移动开发平台 mPaaS

    支付宝 二维码 mPaaS 扫码 QRCODE

    谷歌大脑团队官方推荐,用浏览器实现深度学习的「黑科技」教程来了!

    图灵社区

    JavaScript 人工智能 机器学习 深度学习 大前端

    融云 IM SDK 转 AndroidX

    融云 RongCloud

    IM

    【数独问题】经典面试题:解数独 ...

    宫水三叶的刷题日记

    面试 LeetCode 数据结构与算法

    浅谈:国内低代码开发平台能搭建哪些企业管理系统?

    优秀

    低代码开发平台

    十四五重头戏的工业互联网,为什么需要IP化先行

    脑极体

    你的终端从未如此高效

    Kareza

    3月日更 Oh My Zsh

    OpenKruise v0.8.0 版本发布:K8s 社区首个规模化镜像预热能力

    阿里巴巴云原生

    容器 云原生 k8s 安全 应用服务中间件

    助我拿到37KOffer,这份阿里巴巴890页Redis笔记可谓功不可没

    Java架构之路

    Java 程序员 架构 面试 编程语言

    写作的意义

    ES_her0

    28天写作 3月日更

    Linux 高并发服务器 select/poll实现

    赖猫

    Linux linux编程 linux开发 Linux服务器开发

    读书笔记:我的安全世界观

    架构精进之路

    安全 #读书 3月日更

    比帮你写代码更爽的是:让Agent来打工|对话 AI 原生《云智实验室》_百度_凌敏_InfoQ精选文章