采访嘉宾|张源源 百姓车联数据科学与数据平台高级总监
编辑 | 李忠良
大模型已经融入千行百业,在这个背景下,LLMOps 作为一种新概念,其定义、实践以及应对挑战成为了关注焦点。为了深入探讨 LLMOps 的意义和关键,我们采访了百姓车联数据科学与数据平台高级总监张源源,他分享了 LLMOps 在车损互助案例中的应用以及所面临的挑战与解决方案。以下是他的访谈实录。
InfoQ:现在其实大家 MLOps 都还没有搞得特别好,马上就出来了 LLMOps,当然也就没有特别标准的定义,在您看来 LLMOps 如何定义?它包含哪些内容?LLMOps 与 MLOps 您觉得两者较大的区别是什么?
张源源:这次 AICon 分享的第一部分,就会给出我对这部分的理解。简单来说,如下图所示。
● MLOps 用于管理 ML 应用的全生命周期,包括数据收集和处理、模型的训练、评估、部署和监控等,虽然会涉及跟多个工种打交道,但相关产品主要使用对象是从事 ML 算法开发工作的人员,比如 data scientist、算法工程师等等。
● 关于 LLMOps,我这里先提供三种对 LLMOps 的三种视角,通过比较这三种视角,可以更好了解 LLMOps 是啥。
● 一种视角认为 LLMOps 是 MLOps 在 LLM 场景下的直接迁移。主要使用对象还是算法工作人员。这种视角里认为的 LLM 全生命周期更多还是强调训练大模型的过程,对有了大模型之后如何做应用,其实覆盖的比较少。这种视角在某些之前对 MLOps 有过了解甚至投资过但对 LLM 应用开发没那么熟悉的 VC 那里很流行。
● 另外一个知名项目 LangChain 提供了不一样的视角,它推出了号称是 LLMOps 的 LangSmith,它更多关注有了大模型之后如何开发大模型应用。可以从他们的产品设计理念里非常关注实验管理等等相关 feature,有很强的 data science 思维,但目标客户已经不局限为算法工作者,很多业务开发者借助它已经能很高效的完成应用开发。
● 作为当下世界范围内风头最劲的 LLMOps 之一,也是我们国内开发者做出来的良心制作,Dify 同样更多关注有了大模型之后如何开发大模型应用的问题,但目标客户主要是无代码、低代码群体。
● 通过后面这两种视角,其实可以看出 LLMOps 不应只是 MLOps 在 LLM 场景下的直接迁移。有了这三个视角的铺垫,其实通过直接对比 MLOps 和 LLMOps,容易给出更符合我们认知的 LLMOps 定义。
○ 从覆盖流程上说,对于 MLOps 来说,开发模型和模型应用往往是等价的,模型上线往往等于模型应用上线,想象一下各种推荐算法的开发和上线过程,但是对于 LLMOps 来说,开发 LLM 和后续的模型应用是分离的,都不是一波人,甚至都不是一个公司的人,开发 LLM 和模型应用在技术栈上迥异。
○ 从目标人群上说,对于 MLOps 产品来说,因为开发模型和模型应用都是同一批人,它的目标人群就是算法工作人员,对于 LLMOps 产品来说,开发模型相关的 LLMOps 的目标人群仍然是算法工作人员,但模型应用相关的目标人群就丰富多样了,除了算法工作人员,无代码、低代码偏好人群、业务开发人员也是他们的目标人群。
○ 从产品形态上说,也是类似,MLOps 和以开发模型为主的 LLMops 产品形态主要是 SDK/Library/API 等易于已有技术栈集成的方式,而模型应用相关的 LLMOps 增加了拖拉圈选等无代码操作。
○ 所以基于前面分析里提到的开发 LLM 和后续的模型应用是分离的事实,我们就给出了 LLMOps 合理的定义,即 LLMOps= 开发模型 LLMOps+ 模型应用型 LLMOps。开发模型类 LLMOps 往往有另外一个名字 AI infra,更多关注大模型训练过程的效率、效果等问题。模型应用类 LLMOps 更关注有了 LLM 之后,如何开发 LLM 应用。而开发模型类 LLMOps 其实也跟前面 MLOps 产品遇到的商业上的问题一样,可能会遇到有很多定制化需求而需要用到的公司往往会自研的问题,当然因为当前相关领域人才供给严重不足,不是所有公司都有这样的能力,还是有不少机会;但对于模型应用类 LLMOps 来说,受众很广,也能解决当前应用落地门槛高的痛点问题,如果能聚集起大量的开发者,有了网络效应,是有很高的商业价值的,甚至可以成为大模型的分发入口。特别需要指出的是,在接下来我分享的 context 下,我们所说的 LLMOps 是后者,也就是更多关注模型应用这块的 LLMOps。
LLMOps 在车损互助行业的应用案例
InfoQ:在哪些环境中,车损互助使用到了大语言模型?
张源源:车损互助全流程都在使用,每一次深入跟业务侧沟通需求都能感觉到可以用大语言模型解决很多业务问题,下面这张图是我们 3 个月之前的规划。我们也做了大量创新的工作,比如我们产品负责人之前发表过一篇我们用大模型去解决准入报价里 VIN 匹配的问题,当时在圈子内引起了一个小轰动,很多人都跟我打听是怎么做的;
再比如,我们规划了用大模型去做智能理赔定损 agent,通过几张照片和报案信息,就能给出来带价格的维修单,会涉及非常多大模型能力应用的子问题,很多人都对这块非常好奇也非常好看,这个对汽车维修行业来说带来的影响非常大,如果能做好,预期创造的业务价值非常高;
还有,我们最近搞得 text2data 工作,如果你之前对 text2sql 有过了解,你会发现这个工作从原理上就比 text2sql 靠谱非常多,通过我们在埋点、ad hoc query 方面的落地实践,可以说对于真实场景的取数需求来说,可以说已经完全不需要工程师介入了,我们自己的数仓工程师做完这个项目就自己说感觉数仓这个职位要不存在了。
我们最近也想到了其他更多应用场景,比如用 phone agent 去帮忙做第一轮面试筛选、服务质量反馈、用户报案问题收集(不仅仅通过 chatbot,还是有很多用户习惯用 phone 去报案)。
InfoQ:您可以分享下,您这边采用的基础模型是什么吗?
张源源:我们一直是选择最好的模型,根据特定的场景选择特定的模型,比如大多数时候选择 GPT4,在代码生成相关的使用 Claude3,我们也是评测和对比了很多选择。在现阶段我们场景里,推理价格不是我们优先考虑项,效果是最优先考虑的。
InfoQ:在哪些场景中使用了 LLM?如何引导大语言模型输出您期望的结果?
张源源:场景如上图,在车损互助的准入报价、理赔定损、日常运营、内部提效等等场景都有应用。在引导大模型输出期望结果这块,我们最重要的经验就是确定性的交给确定性的去做(比如能调用 API 搞定的就直接调用 API,比如多用 workflow,把 zero shot 调用大模型,拆解成多个确定性节点和几个调用大模型的节点),剩下的才交给大模型;另外一个经验是,团队一定要有有实验思维、懂数据科学的人,才能把这个事情真正做好。
InfoQ:如何评估大模型的回应呢?是好的还是坏的?
张源源:首先去看自己的 task 是不是已经有 benchmark,比如你搞的是翻译类任务,这种肯定有很丰富的 benchmark,直接去看模型在这些 benchmark 上的表现,或者去关注一些大模型的 technical report 以及 lmsys 等的 leaderboard,当然除了这些,还可以自己构建评测集合,让领域专家或者大模型本身帮你标注这些结果好坏,这个时候类似 Dify 这样的 LLMOps 就提供了非常好的标注回复功能,能提供很好的支持。当然,这也是我上面说的,团队一定要有有实验思维、懂数据科学的人,他好去设计实验 pipeline,以及评测模型和各种配置的好坏。
InfoQ:底层 API 模型的持续变化会对输出结果的影响也是非常大的,如何处理这些情况呢?
张源源:无他,就是做实验,在 benchmark 和自己的评测集合上做实验,根据效果好坏来决定是否切换。
InfoQ:除去输出的期望问题,还有哪些挑战是您这边遇到的?又是如何解决的?
张源源:总体来说,遇到的挑战还好,哪里不会学哪里,比较享受这种遇到问题就解决问题的感觉吧,如果非要说挑战,主要有两个吧,一个是 RAG 这部分,现在市面上的方案还没有达到预期,核心我觉得是当前是工程的人搭起来架子,但是对效果提升有帮助的算法相关人才跟进还不够以及还没有整合到主流工程里去,这部分也呼吁更多信息检索相关的人杀入这个领域,机会很大,低处果实也很多,另外一个更大的挑战就是一直要 catch up 最新进展,有太多东西需要深入学习和 research,时间总是不够用的感觉。
InfoQ:在搭建与使用 LLMOps 过程中,您这边一共有多少人参与?为团队带来哪些收益呢?
张源源:据我们内部初步估计,各个场景第一年创造的业务价值预计近千万,这还是考虑我们第一年用户量不够大、很多合作伙伴 API 还没有如期接入的情况,而且有很多用户体验方面的价值无法用金额直接衡量,我们公司是志在用 AI 作为核心竞争力在海外做一款颠覆性的车损互助产品。拿到这个业务结果,背后主要是三点,第一就是我们对大模型的认知足够,第二就是对业务场景问题深入去思考,第三就是借助 LLMOps 让我们低成本做实验和验证,整个过程,核心参与人员就四五个人。
安全性和合规性问题
InfoQ:鉴于车损互助行业可能涉及到用户个人信息和交易数据等敏感信息,您是如何确保模型对这些信息进行合规处理的?
张源源:我们目前的应用场景还没有太多涉及,有一两个场景里有这种问题,但是也不严重,也就是用户上传车损照片,这些都可以通过免责申明加上产品手段去解决,也就是说在用到大模型之前就解决掉了,尽量不在大模型这里进行解决。
未来的发展方向和预测
InfoQ:随着技术的不断发展,您对 LLMOps 的未来发展有何预测?比如在模型自动化、自适应性、实时性等方面的进展。
张源源:这部分在分享里也会涉及,应用类 LLMOps 主要在解决降低门槛、提高可集成性、提高可观测性、提升效果和效率这几个问题。
● 在降低门槛方面,当前以 Dify、Coze 为代表的应用开发类 end2end 的 LLMOps 极大的降低了普通人开发 LLM 应用的门槛,意义重大,甚至因为这一点,LLMOps 现阶段的流量入口价值和分发价值都被低估了。
● 在提高可集成性方面,通过 API 把 LLM 应用作为整体跟其他系统对接的方式还不够,还需要节点级别的对接方式,workflow 的 http 节点有一定帮助,但还不够,比如往往没有全局 memory。当前主流 LLMOps 更多思考的是新创建的应用,但市面上更主流的应用场景是需要跟已有系统进行集成,提高可集成性能极大提高 LLMOps 的上限。
● 在提高可观测性方面,当前 LLMOps 做的还不够好,比如很多还不支持版本控制,tracing 做的也不够好。
● 在提升效果和效率方面,当前 LLMOps 做的也还不够,效果和效率其实也是在落地过程中,用户最在意的点,但大模型的自身能力缺陷在没有正确使用大模型经验的普通人那里被放大,导致大模型落地差强人意。期望 LLMOps 能够对于有能力的人,提供更多集成其他优秀解决方案的机会,甚至这本身也是商业机会。对于没有能力的人,应该提供更好的经过广泛证明的默认选项。
嘉宾介绍
张源源:百姓车联 AI/Data 方向负责人,中国人民大学校外导师,中国商业统计学会常务理事,数据科学社区统计之都常务理事。长期跟踪 AI/Data 方向前沿技术发展,发表了多篇 AI 方向顶级 Paper,有多项相关专利;在百度、阿里、百姓车联等多家赛道内头部公司有过行业内开创性的工作,在 AI/Data 方向有超过 10 年的积累。目前正在百姓车联带领团队开发车损互助行业首个基于大模型的智能车损互助系统。
活动推荐:
随着大模型在企业中的实践日益增多,企业界对大模型应用的探索和需求也在不断增长。为了满足这一需求,InfoQ 精心策划的 AICon 上海站即将盛大开幕。活动定于 8 月 18 日至 19 日举行,届时将有 12 个专题论坛,汇聚 50 余家企业的 AI 落地案例分享。这些案例覆盖了从 Agent 技术、RAG 模型、多模态交互到端侧智能和工具链构建等多个领域,为企业提供丰富的实践视角和启发。更多内容可点击 AICon 上海查看。
评论