最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

企业如何实际应用文心一言大模型?百度工程师首次现场演示文心千帆微调技术

  • 2023-05-12
    北京
  • 本文字数:4735 字

    阅读完需:约 16 分钟

企业如何实际应用文心一言大模型?百度工程师首次现场演示文心千帆微调技术

5 月 9 日,百度智能云在文心大模型技术交流会上,公布了文心大模型在产品技术、场景研发、生态建设等领域的最新进展。

“文心千帆大模型平台”,为企业提供文心一言等大模型服务

大模型引发的 AI 再造产业趋势已经势不可挡。但当下企业最大的难题是,如何高效、低成本得获取大模型能力,如何挑选到最合适的大模型服务。


百度智能云表示,正在内测的“文心千帆大模型平台”,是全球首个一站式的企业级大模型生产平台,不但提供包括文心一言在内的大模型服务及第三方大模型服务,还提供大模型开发和应用的整套工具链


未来,文心千帆将提供两种服务:第一,未来,文心千帆将以文心一言为核心,提供大模型服务,帮助客户改造产品和生产流程。第二,作为一个大模型生产平台,企业可以在文心千帆上基于任何开源或闭源的大模型,开发自己的专属大模型。


百度集团副总裁侯震宇表示,大模型时代下,企业的创新要脱颖而出,不但需要智能的算力、灵活的框架平台、丰富的大模型体系以及优质的应用方案,还需要这四者之间端到端的适配与优化,这是一个“既要、又要、还要”的端到端创新工程。


现场,百度智能云与联想集团、用友、宝兰德等 14 家文心千帆生态伙伴举行签约仪式。


用友网络副总裁、用友研究院院长吕建伟表示,中国企业关注大模型的落地能力,一个简单的智能问答背后有着非常复杂的加工过程。我们期望和百度智能云一起,把微调、性能调优等工具简化,推动大模型应用。


北京宝兰德软件董事长易存道表示,如何把大模型在垂直行业做好,是目前各个企业都要考虑的问题,多数企业无法像百度一样有能力建设大模型。怎么能够把百度的大模型能力和企业业务有效结合起来,创造更强的价值,是企业非常好的弯道超车机会。

百度工程师现场演示大模型微调全过程

事实上,目前企业应用大模型面临诸多难点:模型体积大,训练难度高;算力规模大,性能要求高;数据规模大,数据质量参差不齐。大模型产业化需要云计算厂商将模型开发、训练、调优、运营等复杂过程封装起来,通过低门槛、高效率的企业级服务平台深入产业,为千行百业提供服务。


侯震宇表示,文心千帆大模型平台是全球首个一站式的企业级大模型平台。之所以称为全球首个一站式平台,是因为它不但提供包括文心一言在内的大模型服务,还提供大模型开发和应用的整套工具链。此外,该平台还支持各类第三方大模型,未来将成为大模型生产和分发的集散地。


目前,文心千帆大模型平台提供公有云服务、私有化部署两大交付模式。


在公有云服务方面,将提供:推理(直接调用大模型的推理能力)、微调(通过高质量精标业务数据,高效训练出特定行业的大模型)、托管(将模型发布在百度智能云,以实现更加稳定高效的运行)三种服务,大幅降低企业部署大模型的门槛。


百度智能云 AI 与大数据平台总经理忻舟在现场演示了如何微调大模型,这也是国内首次演示如何微调行业专属大模型的全过程。


00:00 / 00:00
    1.0x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    文心千帆大模型平台提供了可视化开发工具链,提供了数据生成、标注、回流的数据闭环管理功能。企业用户以少量数据即可发起模型微调,最快几分钟就可获得自己的专属大模型。


    在私有化部署方面,文心千帆大模型平台支持软件授权(提供在企业环境中运行的大模型服务)、软硬一体(提供整套大模型服务及对应的硬件基础设施),租赁服务(提供机器和平台的租赁满足客户低频需求)三种方式。私有化部属能够满足对数据监管有严格要求的企业客户需求。


    忻舟总结,文心千帆大模型平台有六大特点:更易用,开箱即用,节约客户机会成本;更全面,提供覆盖全生命周期的工具链;更高效,可以端到端的全流程优化;更安全;更开放;更集成,更多插件拓展模型能力边界。


    “快且收敛,是大模型应用训练中一个非常重要的指标。”忻舟说,“只快不收敛,大模型的训练是没有用的。文心千帆在多机多卡训练性能方面,可以更快达到收敛的状态,在全球权威 AI 基准评测 MLPerf 榜单中排名世界第一。”

    已有 300 家企业参与文心一言内测

    据了解,百度内部产品正在基于文心一言升级。


    比如,在百度员工内部的智能工作平台“如流”上,很多程序员会就一些产品或技术难题询问产品经理、研发同事,数量多,频次高。过去获得一个答案平均时间约 5 分钟,现在如流有了一个文心千帆 AI 小助手,可以代替同事自动回答各种问题,平均 5 秒就可以解答一个难题,大幅提升了工作效率。


    同时,百度智能云的金融行业应用、政务行业应用、智能创作平台、智能客服、企业知识管理、数字人直播平台等六大智能产品系列,将基于文心大模型全面升级,未来将在安全评估完成后上线。


    此外, 文心千帆大模型平台面向首批企业客户内测以来,正在与不同领域客户联合研发,在智能办公、旅行服务、电商直播、政务服务、金融服务五大领域打造行业样板间。


    金山办公助理总裁田然表示,文心千帆在安全合规、模型深度、迭代速度、推理性能等多个方面都有一定的优势,在意图理解、PPT 大纲生成、范文书写、生成待办列表、文生图等多模态生成的场景上,目前双方的联合开发已经取得了进展,会进一步推动大模型在办公领域的应用和快速落地”。


    百度集团副总裁袁佛玉表示:“截止目前,已有超过 300 家生态伙伴参与文心一言内测,在 400 多个企业内部场景取得测试成效。”

    企业该如何选择大模型?除了算力还要看三个指标

    国内大公司纷纷推出大模型,对于企业来说,如何挑选一个合适的大模型成为新难题。


    实际上,企业选择大模型可以从三个标准评判:大模型本身的能力、大模型企业服务的能力、全栈技术积累程度。


    侯震宇表示,百度在芯片、框架、模型和应用这四层都进行全栈布局。正因为可以实现全栈端到端的优化,文心一言自 3 月启动内测不到 2 个月,已完成 4 次技术版本升级,大模型推理成本降为原来的十分之一。


    此外,大模型的大计算、大参数、高成本,也对大模型时代的 AI 基础设施提出新的要求。基于四层框架优势,百度智能云打造了国内首个全栈自研的 AI 基础设施“百度 AI 大底座”,面向企业 AI 开发提供端到端的解决方案。尤其是在框架层和模型层之间,AI 大底座有很强的协同作用,可以帮助企业构建更高效的模型,持续调优性能,并显著降低成本。


    百度智能云云计算产品解决方案和运营部总经理宋飞举例:“大家可能会觉得堆积算力、写好代码、然后进行模型训练,把它跑起来就行了。实际上在训练过程中会遇到各种各样的挑战,很少有人能够使得一个大模型训练过程能够在连续一两天内不出问题。百度 AI 大底座可以为大模型提供高效、稳定的训练和有效的收敛。千卡加速比达到 90%,资源利用率 70%,开发效率提升 100%。这是 AI 大底座为大模型的开发和应用带来的价值。”

    文心一言如何实际落地到各企业、各行业?

    侯震宇在接受 InfoQ 等媒体采访时,谈到了一些焦点话题,包括文心一言如何为企业提供服务,大模型如何与领域结合、企业如何轻量化部署大模型以降低成本等。


    作为标准化的平台提供企业服务


    侯震宇表示,百度将大模型服务放在公有云上,做成一个标准化的产品。文心千帆大模型平台是一个标准化平台,这个平台为企业提供了更好的工具,让 AI 落地更加容易。


    以前,企业需要拿各种各样的数据训练模型,需要大量的数据,才能训练出一个模型,数据本身成本很高,还要经过大量的调优工作。现在借助文心千帆平台,在一个已经训练好的预训练大模型基础上再操作,不再需要那么多数据。此外,以前的企业场景十分碎片化、且分散。现在千帆大模型平台提供的各种工具可以低门槛地解决碎片化场景的问题。


    大模型如何与垂直领域相互结合?


    侯震宇强调,这次现场演示与之前不同,在之前的演示中,百度更多强调文心一言大模型的能力。这一次演示案例强调微调,这是因为,百度智能云在和企业深入接触中发现,很多企业希望直接调用基础大模型的能力,企业还希望将自己内部以及所在领域内的数据“灌进”大模型,获得在领域应用的效果。


    因此,在为企业提供直接调用文心一言大模型的基础能力外,文心千帆平台还提供一整套基于大模型的工具运营,包括微调、再训练等,提供了大量数据准备工具,包括模型管理等。例如,有一些企业有合规方面的要求,它们希望私有化的部署大模型,文心千帆也支持私有化交付。


    开放给企业用户后,企业无需担心算力成本


    大模型依赖庞大的算力作支撑。像 ChatGPT 这样级别的深层次 AI 的计算运营的成本远远大过以前常用到的计算工具。


    “最终能让大模型服务推广开来,只有两个原因:一是模型效果要好,第二是成本”,侯震宇说道。


    据介绍,文心一言大模型自开始企业内测以后一直在迭代,在一个月时间里,文心一言已迭代了四轮。对于百度来说,用的人越多,AI 速度也会更快,会有更好的效果表现。另外,整个成本也在大幅下降,调用百度的大模型的成本相对较低,绝大多数企业都可以支付。据不久前百度对外公开的数据,文心一言的推理成本已经下降到原来的十分之一,价格对企业更友好。


    与从零开始训练一个大模型动辄花费几千万美元、两三个月时间相比,直接调用大模型服务所使用的数据规模,处理数据所耗费的算力、时间成本等已经下降了很多量级。


    侯震宇表示,在接下来几个月,文心千帆大模型还会继续大幅度降低成本,包括推理成本、模型使用,模型微调、模型再训练等环节的成本,让大模型服务的价格降低到更多企业能接受,不让价格成为企业使用、拥抱大模型的瓶颈。


    开源模型更优?


    现在有不少企业直接采用开源大模型的方案,一个问题是,企业采用开源大模型更便宜吗?


    对此,侯震宇表示,开源模型绕不开大量的 GPU,开源并不代表成本更低。整体端到端的优化才会带来使用成本更低,包括调用成本、运营成本等的优化。


    训练出一个大模型训练非常之难,要搭上千张、上万张 GPU 卡的集群规模做训练,一般企业很少能用得起两三千张集群卡。另一方面,它们不一定能够用得好,这自上而下整个链路都有非常高的技术含量,且极耗成本。在这么大的集群规模中,如果出现了 BUG 将很难调整,需要有整体的调优服务能力。大模型之所以贵,是因为量大且训练时间长,在成本这方面,最终要看是否有整体端到端的成本控制能力,只有这样,才比纯粹购买成本低。


    文心一言发布以来一直在迭代,进行效果迭代、性能迭代。文心千帆大模型平台既提供文心一言的模型服务,同时也支持第三方模型服务,包括第三方的开源模型,有的是从头开始做模型,更多的是基于开源模型做再训练。“我一直觉得最终能给业务带来实际竞争力和变化的是模型的能力,但每一个企业不必自己搭一个模型,比如我想开车,不需要自己造车”,侯震宇表示。


    大模型实际应用过程中的安全问题


    不论是在研究还是在实际应用阶段,大模型都应该考虑安全问题。大模型服务的提供者要能够提供更加安全的、有边界的服务,大模型的使用者应该了解如何使用是安全的。


    在安全方面,企业借助文心千帆大模型平台,基于自有数据产生自己的模型版本,再做微调提升对应版本的文心一言大模型的能力,避免企业将数据“灌入”大模型后发生泄露风险。此外,即便有的企业愿意将数据与大模型分享,百度方面也不一定都将数据注入,会加入各种限制措施。


    百度算力充足


    值得一提的是,侯震宇在采访中还谈到了百度的算力储备问题。他提到,文心一言很耗算力,但百度有充足的算力储备,储备量庞大。“在整个 AI 算力供给上,目前行业仍然比较紧张,对于百度来说,现阶段算力并不会制约百度文心一言迭代,由于百度的智能算力储备充足,在某种层面上,至少在当下还算是一个优势”。


    几天前,媒体报道,ChatGPT 背后公司 OpenAI 去年亏损额大约翻了一番,达到 5.4 亿美元左右(约合人民币 37 亿元)。对此,侯震宇发表了自己的看法,他表示,OpenAI 的亏损是特定的场景以及在更早期的时候花费在“探路”的成本更高。大模型应用不论在研发还是在应用阶段,效果和成本是最重要的,文心一言从一开始就注重在成本和性能上的优化,百度目前拥有全国最大的 IB 网络(无限带宽技术),同时也有国内最大的单个 GPU 集群,从多个方面优化成本、提高性能

    公众号推荐:

    跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

    2023-05-12 17:327681
    用户头像
    刘燕 InfoQ高级技术编辑

    发布了 1112 篇内容, 共 493.2 次阅读, 收获喜欢 1966 次。

    关注

    评论

    发布
    暂无评论
    发现更多内容

    裸奔?哒咩!

    IC男奋斗史

    芯片技术

    微博评论架构设计

    刘洋

    #架构实战营 「架构实战营」

    VuePress 博客优化之中文锚点跳转问题

    冴羽

    typescript Vue 博客 vuepress 博客搭建

    我是一名数学专业的应届博士,我该如何选择offer?

    IC男奋斗史

    职业规划

    Redis 主从复制的原理及演化

    百度开发者中心

    润还是不润?这是个问题

    IC男奋斗史

    职业规划 芯片行业思考

    看到字节跳动28岁员工猝死,我都想润了......

    IC男奋斗史

    职业规划 芯片行业思考

    聊聊redo log是什么

    程序猿阿星

    Redo Log MySQL InnoDB

    OceanBase 社区版 OCP 功能解读

    OceanBase 数据库

    分布式 OceanBase 社区版 工具家族

    对信用卡欺诈 Say No!百行代码实现简化版实时欺诈检测

    沃趣科技

    数据库表

    揭秘视频千倍压缩背后的技术原理之环路滤波

    拍乐云Pano

    音视频 RTC 视频编码 音视频开发 视频压缩

    IC应届生40万白菜价!从业多年的资深专家手把手指导你如何选择offer!

    IC男奋斗史

    职业规划

    这是我们的黄金时代

    IC男奋斗史

    职业规划 芯片行业思考 芯片技术

    凤姐如何变冰冰?

    IC男奋斗史

    芯片技术

    通过简书网学习 ActionChains,selenium webdriver 学习第3篇

    梦想橡皮擦

    Python 3月月更

    2023届校园招聘正式开启!OceanBase 想和你在这个春天约一场面试

    OceanBase 数据库

    招聘 校园招聘 oceanbase

    一文带你认识 SOFARegistry 之基础架构篇

    SOFAStack

    开源 架构 注册中心 SOFA

    博文推荐|使用 Apache Pulsar 构建边缘应用程序

    Apache Pulsar

    开源 架构 分布式 云原生 Apache Pulsar

    iOS防截屏|担心App内容被截屏泄露吗?这个开源库就是你要的

    LabLawliet

    ios

    Ember 速度最快、性能最高的渲染技术框架之一

    devpoint

    前端框架 ember.js

    系统学习 TypeScript(五)——联合类型

    编程三昧

    typescript 前端 3月月更 联合类型

    我的奋斗:我在外企那些年(二)

    IC男奋斗史

    职业规划 芯片行业思考

    芯片工程师太贵?贵你妹啊

    IC男奋斗史

    芯片行业思考

    芯荒荒,汽车芯片路在何方

    IC男奋斗史

    芯片行业思考 芯片技术

    国内外最知名的9大工作任务管理软件盘点

    PingCode

    火山引擎、阿里云、腾讯云联合发布"超低延时"直播技术标准

    字节跳动视频云技术团队

    音视频

    华为,在行星的十字路口

    脑极体

    第三次“世界大战”——芯片保卫战,无烟的战场

    IC男奋斗史

    芯片行业思考

    为什么需要线程池?什么是池化技术?

    王磊

    面试

    澜起科技加入,龙蜥社区再迎领先的芯片设计厂商

    OpenAnolis小助手

    Linux 开源 操作系统 生态 龙蜥社区

    我的奋斗:我在外企那些年(一)

    IC男奋斗史

    职业规划 芯片行业思考

    企业如何实际应用文心一言大模型?百度工程师首次现场演示文心千帆微调技术_AI&大模型_刘燕_InfoQ精选文章