【AICon】 如何构建高效的 RAG 系统?RAG 技术在实际应用中遇到的挑战及应对策略?>>> 了解详情
写点什么

AIGC 如何掀起智能客服“新革命”? | InfoQ《极客有约》

  • 2023-08-02
    北京
  • 本文字数:16697 字

    阅读完需:约 55 分钟

AIGC如何掀起智能客服“新革命”? | InfoQ《极客有约》

ChatGPT 的诞生打响了现代 AI 军备竞赛的第一枪。以 GPT-4、ChatGTP、Bard 等为代表的大语言模型在全球各界引起了广泛关注。结合 ChatGPT 的底层技术逻辑,未来中短期内 ChatGPT 产业化的方向大致有四类:即智能客服、文字模态的 AIGC 应用、代码开发相关工作以及图像生成。其中,最适合直接落地的项目就是智能客服类的工作。

 

基于大模型技术所构建的智能客服正在从根本上改变传统的人机交互过程,大模型自动生成对话流程让运营智能客服更高效,可以提升复杂缠绕问题解决率、人机交互感知程度,以及意图理解、流程构建、知识生成等运营内容的效率。

 

如果单从产品渗透率层面来看,智能客服早在过去的七八年里就已经在电商、金融等等领域慢慢普及开来了。大模型带来的两个核心改变,一个是开发智能客服产品的成本大幅度下降,另一个就是用户体验的提升。

  

那么,想要将 LLM 大语言模型与智能客服产品进行结合,或者将前者落地于 ToB SaaS 应用软件领域,该如何着手搭建技术栈?大模型产品将如何赋能智能客服产品?本期《极客有约》我们特别邀请了 bothub 创始人,布奇托网络科技创始人兼 CTO 徐文浩担任主持人,与华院计算技术总监兼数字人事业部联合负责人贾皓文、中关村科金智能交互研发总监、中关村科金智能客服技术团队负责人王素文,京东云言犀 KA 产品负责人王超一同探讨 AIGC 在智能客服产品中的落地及未来发展趋势。

 

以下为访谈实录整理。

 

徐文浩:观众朋友们,大家好!欢迎来到 InfoQ《极客有约》。今天的主题是《天工刊物 AIGC》 特别策划。我们希望通过这个策划,让大家全面了解 AIGC 在智能客服领域的方方面面,深入感知这场变革。

 

在本期节目中,我们邀请了三位嘉宾与大家讨论 AIGC 在智能客服领域的应用。整体上,我们将分为三个部分进行讨论。首先是 AIGC 大模型在智能客服产品中的落地应用;其次是智能客服中 AIGC 架构的部署和工具应用的设计与选择;最后是构建高质量对话系统的方法。

 

今天的三位嘉宾都是在智能客服和智能交互产品领域有着丰富经验的专家。第一位嘉宾是京东云言犀 KA 产品负责人王超老师。第二位嘉宾是中关村科金智能交互研发总监王素文老师。第三位嘉宾是华院计算技术总监兼数字人事业部联合负责人贾皓文老师。

 

我们先从第一个问题开始,我非常好奇:AIGC 的出现对智能客服带来了哪些变化?我想先请京东云的王老师来分享一下您的看法。在您的观察中,AIGC 的出现给智能客服带来了哪些革新?

 

王超:AIGC 的出现引起了整个智能客服领域的广泛关注,并促使相关同行进行了大量的探索。对于智能客服的认知和未来的改变,这些认知变化在日新月异。

 

京东云言犀团队一直密切关注国内外智能客服应用的进展。另外,我们正在研发的言犀大模型将于 7 月发布,同时我们也在持续进行客服业务中的各种大模型实验。近几个月以来,我个人对 AIGC 的理解和 3 个月前已经完全不同,所以今天我想分享的观点更多代表个人意见和当前的看法。

 

AIGC 对智能客服带来的影响可以从两个层面来看。首先,从我们行业常见的管理问题和技术难题的角度来看,AIGC 具有解决的潜力。我们都知道,大模型对于智能客服的应答水平、拟人度和服务体验等方面都会带来巨大的提升,并且能够大幅降低运营成本。

 

在机器人方面,我认为不需要过多展开讨论,因为我们已经将很多注意力放在机器人上了。我想说的是,大模型在广泛的智能客服领域中,特别是客服管理智能化方向上的验证信息。例如,我们在智能辅助方面的实践,以往的一些技术在一些关键点上的推荐和会话中关键信息的提取等问题,尽管有解决方法,但成本和效果通常难以取得很好的平衡。然而,通过大模型的验证,我们发现它在处理这些问题上有很好的解决能力和潜力。另外,对于质检工作来说,行业中普遍使用的关键词正则等方法或者智能质检方法,虽然有一定效果,但准确率往往较低,工作量也很大,提升准确率的周期较长。

 

然而,通过大模型的实践,我们发现它在理解抽象质检标准和执行质检工作方面效果很好。此外,在员工培训方面,我们已经看到一些头部银行引入对话机器人进行培训的例子。除了以上所述,我们还在客服中心进行经营分析,需要总结客户咨询中的需求、客户画像以及风险等方面的信息,而在实验中,大模型的效果也非常好。我认为在泛智能客服领域中,大模型的应用潜力是巨大的。我们相信,大约在半年左右的时间内,市面上的主流产品将迎来一次重要的升级。

 

基于目前对该行业和领域的理解,我们可以探讨更广泛的领域是否会发生变化。例如,它能给客服和客户服务带来哪些变化?我认为这个问题可能更具挑战性,而且在目前的阶段,没有人能够确定具体的变化。但我们相信,至少在某些方向上,例如主动服务方面,它将带来巨大的变化。举个例子,电商经常进行各种活动,而活动的宣传和解释工作通常不会落在客服中心。因为如果要用人工或传统的机器方式进行这种广泛的活动承接,都是非常困难的。但我们可以想象一个未来,通过引入大模型,通过基础信息的输入,我们的客服可以很好地解释许多活动,这代表着未来客户服务在主动转型和升级方面可能存在的潜力。

 

徐文浩:我总结一下,实际上,AIGC 的出现将智能客服领域中可以应用智能部分的范围扩大了。不仅仅是回答售后问题这样的传统智能领域,而是整个客服环节的各个方面都可以应用大模型,甚至可以延伸到营销领域。王素文老师,从您的视角看到了怎样的现象?

 

王素文:正如刚才提到的,智能客服领域的范围非常广泛。智能客服和机器人等技术实际上可以改变传统的人机交互过程。通过大模型的运用,特别是利用自动生成对话流程,可以使传统智能客服的运营更高效。在传统方式中,我们通常需要通过人工手动配置知识库等方式,但效果并不明显。然而,通过大模型的自动生成对话流程,可以直接提高解决复杂问题的能力和问题的直接回答率,这是一个显著的颠覆性影响。

 

第二点是,大模型还能实现降低成本、提高效率的目标。从智能化的角度来看,人工成本一直相对较高,因为它需要人工辅助机器。通过大模型的应用,可以辅助提升知识库建设和运营的效率,从而实现显著的降本增效效果。

 

第三点是,关于机器人的拟人度和用户体验。传统的机器人在这些方面常常不尽如人意。然而,大模型的出现使得对话更流畅,拟人化程度更高,更像人与人之间的交流。这是一个非常强大的颠覆性影响。

 

当然,对于泛客服而言,包括质检、助手和陪练等方面,大模型也会带来相应的颠覆性影响,不同的产品会产生不同的影响。

 

徐文浩:我注意到贾老师是数字人事业部担任联合负责人,从您的角度来看,如果将智能客服与数字人结合,是否会带来一些新的革新呢?

 

贾皓文:在回答这个问题之前,我想先回到智能客服领域。智能客服的发展本质上可以追溯到人工智能的历史,它建立在语言的积累基础上。我还记得大约十年前,有几层楼都是客服人员,他们的大部分工作时间都耗费在用户问题整理上。当时,甚至连现在两位老师提到的知识库等工具也不是很完备。

 

现在回顾一下,支付宝等客服产品从最初的知识库到后来的高级助手,逐步扩展,衍生出像 Rasa 框架这样的用于模拟多轮对话场景的工具。然而,与刚才两位老师所说的一样,所有这些对话过程在人格拟人化方面仍然有所欠缺。以前的所有客服类工具本质上都无法通过计算机行业标准测试。但是,当大模型出现后,尤其是像 ChatGPT 或小羊驼(Vicuna)等,它们具有一定程度的人格特质,尽管可能是 10 岁或 11 岁孩子的水平。在某种程度上,它们能够通过图灵测试。

 

现在回到您之前提出的问题,将智能客服与数字人结合,会带来一些新的革新。在数字人领域的起初阶段,基于知识库和大模型的方式进行与人类的拟人化问答是无法实时完成的。然而,随着技术的扩展,我们已经能够实现拟人形象,并结合大型模型来模拟真实的场景。当我们将其应用于知识库、客服以及数字员工等场景时,数字人领域可能面临两个挑战。首先是数据的完备性,尽管 ChatGPT 等看起来很酷,但它们本质上是基于过去的历史数据生成的,类似于完形填空的生成。虽然这种方法能够提高效率并降低脚本撰写的成本,但生成内容的质量实际上是无法控制的。在数字人和智能客服领域等综合领域的产出内容中,我们无法完全确信生成的内容。因此,我们可能需要引入不同的验证和保障措施,以确保数字人或 ChatGPT 等所说的话更像是人类在说话,而不是胡言乱语。

 

总结下,虽然现在大模型可能比较火,未来的前景也很广阔,但当下阶段它还是一个从 0 到 1 的状态。未来我们可能期望它长成参天大树,但是现在不管是对整个行业来说,还是大家对它的期望来说,还是要让它在一个比较好的土壤里面逐步成长,真正的能够给智能客服、给数字人等领域来带来效率的提升。

 

徐文浩:我想深入探讨一下这个问题。我想问一下贾老师,根据您的观点,如果我们现在在智能客服领域引入大模型,是否会带来收益?我指的是就当前情况而言,不考虑两年或三年后的发展。就现在的角度来看,从您的客户或内部产品的角度来看,引入大模型是否会带来收益?

 

贾皓文:是否引入大模型取决于具体的业务场景和用户需求。对于大型公司如蚂蚁金服或京东等拥有庞大而成熟的系统的情况,盲目引入大模型可能会增加额外成本。我们需要采取一些兼容性措施来规避 AI 生成内容带来的不确定性。 对于规模较小的公司来说,将大模型作为知识库的补充,并辅助一定程度的人工审核,可能是一种提高效率的好方法。它可以帮助智能客服更好地理解用户的语义,提升知识库的质量,甚至改善用户体验。 此外,对于认知智能等更高层次的应用,引入大模型可能有助于更好地理解和认知用户。在互联网行业中,有一个重要的概念叫做"千人千面",这意味着每个客服都能够提供个性化的服务。因此,我们需要在辩证的角度来看待是否引入大模型,结合具体情况做出决策。

 

徐文浩:贾老师的观点是对于大型公司需要小心谨慎地引入大模型,引入大模型可能会增加成本,增加各种风险,需要依靠原有的方法或模型作为兜底措施。那我想问下王超老师,京东云客服引入 AIGC 了吗?引入后会的收益如何?

 

王超:对于大型公司在 C 端产品上谨慎应用大模型是出于保障顾客体验和服务安全性的考虑。在面向消费者的业务中,保持谨慎是至关重要的。在这方面,验证和实验都是以非常谨慎的态度推进的。

 

在面向 B 端或面向运营的领域,您们在实验和验证更加“勇敢”。我们在帮助运营搭建文案和脚本等方面引入大模型,这为运营解决创意和效率问题提供了很好的支持。此外,对于质检、辅助和培训等面向员工管理的方向也非常积极地投入。

 

大模型是“刚需”还是“跟风”?

 

徐文浩:这个大概能够把普通员工的效率提升百分之多少?有没有测算过,或者有一些具体的数据。

 

王超:我们目前还没有对这个问题进行具体的测算,因为大模型的应用在不同的工作项目中表现各异。例如,在生成脚本和文案方面,它的速度可能会提升几倍。然而,在日常分析和质检搭建等方面,效果可能因情况而异。因此,在当前阶段,我们很难量化并得出一个准确的结论,但是我们确信,大模型的应用确实提高了效率。

 

徐文浩:王素文老师,您这边有客户或产品上引入了 AIGC 吗?能看到具体的收益吗?

 

王素文:在我们的业务领域,主要面向 ToB 市场,我们服务各种不同领域的客户,例如金融和保险行业等。这些客户在创新方面有一些需求,包括降低成本和提高效率的动机。我们与客户进行了一些共创合作,并进行了验证。例如,我们为某个客户创建了营销助手,可以自动生成一些文案。传统上,每个员工的水平参差不齐,包括营销话术方面也缺乏标准化和统一性。通过我们的营销助手,首先可以帮助他们生成统一的文案,根据历史上的优秀经验进行复制。其次是降低成本和提高效率,他们不再需要花费太多时间进行培训、学习、记忆等工作。我们的大模型在行业中得到了广泛应用。

 

我们还开发了电销机器人,可以直接回答一些问题。当然,我们必须考虑到合规性问题,包括遵守相关法律和保护数据安全。我们正在与信创院合作,致力于解决这些标准化问题。

 

徐文浩:大家确实在努力尝试发挥大模型的能力。然而,目前仍然有许多具体问题需要解决,尤其是可控性和安全性方面的挑战。从智能客服的角度来看,电商行业是早期引入智能客服的行业,因为有着“618”和“双十一”等大型促销活动,这些活动期间的流量峰值非常巨大。

 

在过去几年中,国内的服务提供商也为各种金融机构(如银行、保险和理财机构)开发了各种智能客服产品。在这种情况下,如果金融机构不使用智能客服,似乎就会落后。但是,银行客服等机构并没有像“618”和“双十一”那样的高峰期,那这些机构引入智能客服是出于刚需,还是出于“跟风”或危机感?如果是刚需,那么这种需求最初是从哪里产生的呢?

 

王超:在数字化浪潮的推动下,金融机构更容易实现智能客服的落地。在金融领域,智能客服已经相对广泛应用,并成为金融机构比较常见的产品之一。对于金融机构而言,智能客服的核心需求主要是降低成本和提高效率,它能够将人力资源从繁琐的工作中解放出来。特别是在一些高频问题的自动问答、通知和回访等业务场景中,智能客服可以节省人力资源,使其能够将精力集中在更专业、有创造性的工作上,而不是重复、频繁且低价值的工作上。让他们可以有资源投入到开发和维护高净值客户方面,更专注于执行更有价值的任务。此外,随着新一代的基础突破,如大模型的出现,智能客服也能够获得强大的自然语言生成能力,使其变得更加智能和高效。

 

徐文浩:所以本身是个刚需,因为有大量的重复劳动要去降本增效。贾老师,你这边的金融领域客户或者其他领域是否在关注智能客服呢?

 

贾皓文:除了金融领域,像保险、法律和健康等垂直领域也存在对大模型的需求。特别是在公司的视角下,对于生成和提取知识的需求越来越明显。当我们与银行或保险公司交谈或与法律工作者讨论问题时,他们提供的信息本质上都是事实性的内容。通过大模型,我们可以更好地识别用户问题的意图,并进行聚类或分流处理。

 

如王素老师所说,金融、保险和法律等行业的效率提升潜力非常大,这是一个降低成本和提高效率的过程。从我个人的角度来看,这是一个刚需,特别是在效率方面。然而,这些行业可能不会采取过于激进的方式,因为与金融、保险和法律相关的业务都是敏感性很高的,需要具备很强的专业性。在这方面,又引出了另一个问题,即对大模型生成结果的成熟度评估。虽然像 GPT-4 等大模型在美国的一些专业考试中表现良好,但在中国,特别是在中文这样庞大而复杂的语义背景下,它是否能通过相应的考试仍然是个问题,这可能需要进一步的研究。在这方面,我们公司计划在 7 月份与浙江大学合作发布一个法律垂直领域的大模型,为这个特定领域提供更好的解决方案。

 

徐文浩:法律领域的大模型和金融领域类似,对于生成的质量要求非常严格。在法律领域,一个微小的错误可能会对消费者的体验产生负面影响,甚至对商家(B 端)造成损失,这对生成结果的准确性和可靠性要求更高。就这个问题,王超老师怎么看?

 

王超:我认为无论是电商还是金融行业,对智能客服的要求都非常严格。另外,对于电商智能客服来说,大促销期间和日常的咨询都非常可观。我们团队在京东的自营业务中,日常期咨询量占 70%,高峰期 90%。这 70%的咨询量已经具有巨大的价值。我相信这种逻辑也适用银行等各种机构。我们也注意到一些银行的智能客服服务能力仍有不足。因此,我们需要思考如何提升智能客服的成熟度,并且它需要与企业或银行的发展阶段相适应。目前,许多银行正处于智能客服的初级阶段,主要集中在 FAQ 和简单的多轮对话构建上,而服务能力和用户体验可能还无法达到令人满意的水平。

 

基于我们在电商领域的经验,我们认为银行智能客服需要进一步发展,特别是在运营体系方面需要大幅升级。例如,我们要求基层客服在服务标准和技巧方面接近人工水平,这对我们的运营体系变革具有重大影响。然而,在与银行合作的过程中,我们发现许多银行在智能客服建设中面临挑战。技术供应商与银行之间的合作更类似于乙方和甲方的关系,与我们的合作模式有所不同。银行在组织架构和人才培养方面与我们的要求仍存在差距。我们与许多银行合作伙伴进行了交流,发现一种普遍现象,即他们认同我们的发展方法论,但也感到困难。推动内部改革对于银行来说是复杂的,需要更多的努力。我相信大模型是一个机会,因为它可以降低智能客服的运营难度,简化组织架构,我对此充满期待。

 

徐文浩:我相信大模型对于在座的各位以及从事智能客服和自然语言处理领域的大部分人来说都是一个巨大的机会。我们的观点相似,大家都认为大模型可以帮助我们实现更加拟人化和个性化的对话体验。然而,当面对向 C 端用户提供服务时,无论是电商还是银行,大家都会更加谨慎。我们都希望确保最终的输出结果是可控的,无论是涉及 1 万元存单还是 1000 元订单,这是一件需要认真对待的事情。

 

刚才我们也谈到了另一个重要的话题,即用户体验。我们可以观察到上一代的智能客服和对话机器人,它们的回答都是预先编写好的模板,例如关于送货地址的回答通常是固定的,只是稍作改动。这种固定模板的回答与真实人工客服相比,存在一定的差距。现在大家都在努力提升对话机器人的拟人程度,让背后的智能客服更具情感,更能理解用户情感,并进行多模态的计算。在这方面,大家是否已经投入研发了呢?

 

王素文:我认为可以从三个方面来讨论:拟人化、人性化和个性化。

 

首先是拟人化。在智能客服领域,拟人化一直是一个痛点,因为传统的机器人在这方面表现还有待改进。我们一直在探索如何构建拟人化的对话交互。这涉及到如何设计情景化的对话,如何拆解问题,如何继承上下文以及如何理解多轮对话。总体而言,我们希望机器人能够提供更加贴切、自然的对话和交互模式。

 

其次是人性化的服务。在精准识别场景或意图的基础上,我们还需要在拟人化的基础上进一步提升服务。我认为多模态情感计算是实现这一目标的有效方法。例如,我们公司开发了虚拟数字人客服,它可以进行人机交互对话,并结合情感计算,通过视频、语音和文本等多媒体方式识别用户情感表达。这样一来,智能客服可以对用户做出相应的情感反馈,打造出具有情感理解和温度的人机交互,实现更人性化的服务。在情感计算方面,传统的方法有规则和机器学习两种模式。通过机器学习,我们可以训练模型自动学习情感状态,并达到分类的标准,从而更好地适应不同领域和语境。这样可以获得更优秀的情感表达效果,提供更人性化的服务。

 

最后是个性化服务。我们需要根据用户的画像实现个性化服务,以实现“千人千面”的效果。例如,我们开发了用户洞察平台,通过用户的基本画像信息和历史对话过程中的洞察分析,可以对用户进行标记和画像积累。在后续对话中,我们可以根据用户的画像为其提供不同的对话流程、回复方式和推荐,从而实现更精准的个性化服务,提升用户和企业的满意度。

 

徐文浩:王素文老师提供了许多宝贵的经验分享,对于从事智能客服工作的人来说,可以借鉴和模仿。京东作为一个用户量和商品量都非常大的平台,大家都希望在使用智能客服时有一种背后是真人的感觉。我想问一下王超老师,京东在实现“千人千面”的能力上,在研发和产品方面都做了哪些工作?是否有什么经验可以分享给大家?

 

王超:我们在提升体验和个性化服务方面做了很多投入。言犀团队开发的情感智能客服是业界首个大规模商用的情感智能客服。自 2018 年开始,我们在机器人应答能力中引入了情感识别和应答的能力。这项技术不仅应用于客服领域,还应用于质检和人员管理服务。

 

回答这个问题涉及两个方面。第一个方向是技术方面,例如多轮对话等前沿技术,这些是当前智能客服技术的主要发展方向。另一个重要方向是运营,即如何通过与人工客服进行对标,进行精细场景拆解,分析人机差异,并通过监控和工具体系实现自动化的问题发现和人机服务差异对比。通过这样的方式,我们从整体体验和人群服务体验的大面差异分析,逐步实现精细化的人群服务体验分析。有了这样的体系,我们才能够持续优化整体服务体验,并最终实现像京东目前日常机器接待量达到 70%、大促期间达到 90%的机器服务覆盖。

 

贾皓文:今晚的直播主题是关于数字人客服领域和大模型的理解。我们对传统客服的理解,无论是人工客服还是 FAQ,都可以被视为低端智能客服。作为用户,我们期望客服能够胜任各种问题,并能够提供排忧解难的帮助。同时,如果客服能够展现拟人化的特点和提供个性化服务,那对于用户来说体验会更好。

 

在大模型领域,拟人化和人格化非常重要。我们公司更偏向于认知智能和心理学的研究方向。我们关注如何快速获取用户的心理标签,并通过心理学的角度对用户进行判断,从而提供更好的服务。我们可以设想一个场景,例如漫威电影《钢铁侠》中的贾维斯。如果未来的大模型能够像一个助手一样,可以根据我们当天的心情和喜好给出最合适的答案和推荐,那将是一个理想的状态。

 

目前,在大模型和数字人结合的研究中,我们还处于初步阶段。但随着学界在多模态领域的研究成果的出现,可能会有一些更好、成本更低的体验产品涌现出来。

 

徐文浩:大家都提到了对情感性的追求,似乎大家都在朝着更接近真人的方向发展。在直播间的大部分观众都是从事技术工作的同学,我们希望能分享一些经验,关于如何构建一个高质量的对话系统,无论是智能客服还是售后服务或售前导购方面。在进入这个领域时应该从哪个方面开始着手呢?

 

贾皓文:如果我们要构建一个高质量的对话系统,实际上涉及到了传统的互联网项目立项的问题。在这个过程中,我们需要考虑业务产品架构、技术架构的选型,以及产品的实际落地形态。同时,我们还需要考虑到许多大型企业或中型企业已经拥有许多现有的客服产品。如果我们想通过大模型提升这些现有客服产品的能力,可能需要采取比较保守的方式。例如,大模型可用作一个外部知识库的工具,用于提供知识输入。 回到刚才提到的架构方面,产品架构和工具选择都是重要的考虑因素。对于初始的切入点,可能涉及到关键字的标注系统和传统的正则表达式等工具。然而,对于这种范式的具体选择并没有一个通用的标准范例,因为它与每个业务的特点相关。

 

徐文浩:从业者的角度来看,无论是智能客服公司还是智能客服的 SaaS 或云平台,都可以思考如何进一步改善对话系统,以提供更高质量的服务。尽管我们今天讨论了很多关于大模型的话题,但实际上当涉及到传统的智能客服时,无论是在银行还是电商等领域,消费者多多少少都会感觉到背后没有一个真人在提供服务。我们需要考虑如何提升用户体验,并投入更多努力来改善现状。

 

贾皓文:如果我们将问题范围缩小,关注于提供更高效和高质量的智能客服内容输出,那我们可以将大模型视为一种增强型对话服务。在智能客服产品中,用户期望遇到的是一个智能、善解人意、善于交流的机器人,同时希望回答的内容能够聚焦于特定业务范畴,例如客服营销等场景。 在这种情况下,我们可以通过将大模型的意图识别、对话流程和多轮对话能力与传统的 FAQ 等外部数据源结合起来。这意味着我们需要收敛整个语言处理过程,例如对访客的问题数据进行归纳和与用户问题的对比,甚至在用户提问的同时输入大量的私有化数据,以补充传统的智能机器人、语音机器人和内外部知识库的能力。通过这种结合,可以在短时间内显著提高用户体验的效率。 进一步地,我们可以考虑拟人化能力的提升,但对于那些希望升级对话系统能力的公司来说,挑战可能较高,因此建议慎重引入。作为一个切入点,将大模型视为外部知识输入的一部分可能是一种成本较小且快速切入的方式。

 

如何提高大模型的对话质量

 

徐文浩:王素文老师,如果去做一个高质量的对话系统来改善现有情况,应该在哪些方面做研发投入呢?

 

王素文:我们可以考虑以下几点来提升对话系统的质量。

 

1. 数据标注成本的降低:传统的数据标注方法需要大量的人工标注,这会带来时间和资源的成本。为了降低这种依赖性,我们可以研究如何利用大量的无标注数据进行无监督训练,从而减少对人工标注数据的需求。这样的方法可以提高数据获取的效率并降低成本。

 

2. 泛化能力的提升:仅仅回答单一问题是不够的,对话系统需要具备一定的泛化能力,以适应不同的场景和用户需求。通过学习语言的多样性和规律,我们可以提升模型的泛化能力,使其能够应对更多的问题和情境。

 

3. 对话模型的构建和选择:在选择对话模型时,我们需要考虑不同场景下的模型适用性。当前已有许多大模型可供选择,因此我们需要根据具体需求选择适合的模型,以达到更高的准确性和效果。

 

4. 持续学习和优化:对话系统需要进行持续学习和优化,因为初始上线的模型效果并不完善。系统应具备自我迭代和自我优化的能力,通过不断使用和反馈,逐渐提高效果和性能。这种持续学习和优化的过程可以满足客户的需求,并使系统变得越来越智能和高效。

 

徐文浩:王超老师,您对之前的讨论有什么观点补充吗?

 

王超:我觉得这个问题的关键在于从客户和业务方的角度以及我们作为平台产品开发设计者的角度来看,其实都指向了相同的目标。无论是从哪个角度来看,我们都需要关注业务的核心需求,以及智能客服系统在提供服务方面的期望。在不同的服务形态和模式下,产品的技术架构和引入的技术能力可能会有所不同,但整体而言并没有太大的差异。

 

举个例子来说,对于一些业务方来说,他们可能希望机器人能够提供基本的问答和信息查询能力,这时我们可能只需要提供一些 FAQ 和一些简单的对话工具和算法模型就能解决需求。而对有些业务方来说,他们希望机器人具备代为办理业务和跟进业务的能力,甚至提供情景化的对话服务和全程护航。针对不同层次的客户需求,我们需要相应地设计产品和构建技术架构,引入相应的能力。 因此,我认为跟进业务方、帮助业务进行咨询、深入了解他们的业务是非常重要的。根据不同的客户需求,进行产品设计和技术架构的搭建,并引入相应的能力,以满足他们的需求。

 

徐文浩:大家试下来哪个模型效果比较好?需要哪些必备的工具、应用,架构如何选型等?

 

王素文:在使用 ChatGPT 或类似的大模型时,可以按以下步骤进行应用和部署。

 

1. 模型训练和调优:选择可商用的开源大模型,如智普 ChatGLM、百川大模型等。根据自己的需求和业务,验证和测试模型的性能。收集领域相关的数据,并使用这些数据对开源大模型进行领域训练,也可以进行指令集合的半自动化生成。通过微调和筛选多轮对话数据,增强领域大模型的对话能力。确保模型在安全性方面满足要求,根据规范和价值观进行微调和后处理。

 

2. 模型工程化和性能优化:针对生成式模型,考虑模型推理的速度、容量和压缩问题。如果模型太大,单卡无法容纳,可以考虑单机多卡或多机多卡的并行推理。对模型进行性能优化,包括压速、压缩和加速,以实现更好的性能。

 

徐文浩:王素文老师,您有推荐的中文基础商用模型吗?

 

王素文:我相信每个人在选择模型时都会根据自己的需求和标准进行权衡。每个模型都有自己的特点和优势。在我们的业务需求中,我们测试了多个模型,最终选择了智普和百川这两个大模型,因为智普大模型在商业化方面已经有了一定的成熟度。他们最近发布了新的模型,这也说明他们在不断地优化和迭代。我相信随着这些模型的不断改进,基于这些大模型再进行领域模型的开发,将会带来更好的效果提升。

 

徐文浩:在测试大模型方面,贾老师有什么推荐的工具架构,或特别关键的应用吗?

 

贾皓文:对于中小型公司来说,从零开始自己开发或在现有模型上进行指令集调优可能会比较困难。模型通常很大,甚至在单个显卡或单台机器上都无法容纳。此外,收集结构化数据,特别是与特定业务领域相关的数据,也是非常关键的。因为在 ChatGPT 的原始训练过程中,做了大量的数据收集和整理,这就需要在指令集调优的过程中使用自己领域的数据来微调模型。这涉及到一些多机多卡的并行计算,可能需要算法和模型训练人员具备高水平的知识,例如张量加速措施和梯度累加措施等。

 

在部署和运维模型的环节中,可能需要考虑模型训练的网速、硬盘选型(如 Zata 或 SSD)、存储器以及数据传输加速工具等方面,对运维环境有较高要求。总的来说,当前大模型的训练过程可能会相对较难,但单纯的部署和推理过程来说,基于 6B 或 13B 这样的大模型,在 V100 上进行部署,基本上是可行的。

 

如果模型调优训练完成后,将其部署到线上系统中,我们通常会考虑整个架构的升级。目前业界比较热门的是 Milvus 向量数据库,它可以通过向量检索将生成的结果进行中间缓存,类似我们平时使用的 Redis 缓存。因为完形填空生成机制的特性,虽然每次生成的具体样式可能会不同,但大致意思是相同的。为了降低线上的成本,我们可以采用这样的机制。同时,对于生成内容的审核系统、训练数据准备系统和标注系统等,也需要有一套完整的解决方案。

 

总的来说,训练大模型并不一定可怕,但可能会对我们之前的技术栈要求有所提升,但这种提升也是可以跨越的,只是可能稍微有一点难度,但我们完全可以通过学习和实践来应对这些挑战。

 

徐文浩:模型训练本身只是整个过程的一部分,周边配套措施也是至关重要的。例如向量数据库、缓存系统、标注系统等,这些配套工具和系统对于产品的持续迭代和发展至关重要。在研发过程中,我们需要一个完整的工具链和解决方案,以支持数据的收集、预处理、标注,以及模型的训练、优化和部署。王超老师,您是否有补充的内容?

 

王超:在这个问题上,我可以分享一些关于正在开发的大型模型的信息。我们正在开发自己的产业大模型,并期待与企业和同行们进行合作。在 7 月份之后会公布更多关于合作机会的信息。另外,提到如何验证哪些大型模型更好的问题。在这方面,我们更关注的是如何在平台上成功应用已经验证过的优秀大型模型,比如百川等模型,鼓励大家关注和了解它们。

 

徐文浩:在研发效能方面,在开发和部署大型模型的团队规模、算力投入以及时间预估等方面大家有什么经验分享?

 

王素文:整个开发和部署大型模型的过程确实需要花费一定的时间。特别是在模型的压缩、加速和优化方面,需要进行反复的实验和调整,这可能是非常耗时的。举个例子,我们曾经开发了一个模型,它的规模达到了 7B,经过优化后,在 A800 服务器上的 4 卡 b 型配置上,推理速度从之前的 28 毫秒降低到了大约 5 毫秒。总的人力投入取决于你所做的工作。

 

首先,需要构建整个基础框架,并对模型进行压缩和量化处理,包括算子的优化。我们基于英伟达的 FastarTransformer 进行了优化,因此需要自定义优化算子,选择适合需求的推理引擎,比如英伟达的 Triton,根据不同的后端提供服务。最后,还需要进行整体的性能测试,以确定模型在不同设备上的最佳性能,并进行最终的部署。根据我们的经验,整个适配过程至少需要一个月的时间。此外,调整指令任务的优化也需要一定的时间,这取决于具体业务需求和指令数量。根据不同的业务类型,通常需要一个十几个人的团队来做。

 

徐文浩:听起来大概需要十来人的团队,一两个月才能把这些模型的推理优化和训练过程走完。这还不是我们说的那种大的几百、几千、上亿参数的大模型。

 

王素文:是的,在特定行业训练好并优化好的模型可以快速将其部署并复制给该行业的客户。通过这种方式,我们能够利用之前的工作成果,为客户提供定制化的解决方案。举例来说,我们在金融领域、保险、财富管理和零售等行业已经完成了模型的优化,因此我们可以将这些优化的模型快速复制,并迅速落地为客户提供服务。这种复用的能力可以极大地提高效率,加快解决方案的交付速度。

 

徐文浩:明白,其实目前它还只是个产品研发的过程,不是个项目落地的过程,研发了一个产品,可以给很多很多客户去用。贾老师对这个问题有什么看法?

 

贾皓文:对于领域大模型开发,数据收集对于特定领域的模型是必不可少的。对于高度专业化的领域(如法律),数据收集可能需要投入较长的时间,可能需要半个月甚至一个月。完成数据收集并进行结构化处理后才能开始后面环节,如指令集的调优和多级多卡的训练过程等。完成这些环节之后,通常会进行多轮的模型效果评估,因为通过 Transformer 机制生成的结果可能不够可靠,需要进行大量的效果测试来确保模型的可靠性。当模型训练基本完成,可以初步商用时,我们可能会根据客户的需求进行进一步的产品化工作,将其打包成一个完整的产品,为用户提供全面的服务。

 

从成本的角度来看,数据整理可能需要半个月至一个月的时间,训练一个规模为 6B 或 7B 的相对较小的模型。然而,这还需要一个重要的前提条件,即负责模型训练的团队必须熟悉多机多卡的训练方式和方法,并熟悉各种数据加速策略和内存加速策略等。此外,环境的准备也很关键。对于一些小型公司,如果要进行大模型的训练,可能需要在阿里云或腾讯云等平台上租赁机器并自行搭建环境。这额外的成本也需要考虑进去。

 

开发一款大模型,投入产出比如何?

 

徐文浩:综合两位老师的观点,如果团队条件成熟,开发一个 7B 规模的微缩版大模型可能至少需要一个十几人团队,开发三个月左右。这样来看,即使是开发一个小模型,投入也是相当大的。那开发大模型的投入产出比大致是怎样的?监管风险和安全性问题怎么来解决呢?

 

贾皓文:要评估投入产出比,需要考虑具体的业务场景和需求。对于创意类脚本生成等传统文案、广告和影视行业,AIGC 等大模型能够快速生成大量的素材,虽然可靠性可能有所欠缺,但可以显著提高生产效率,对于这些创意生产工作来说,投入产出比可能非常划算。然而,对于其他领域如法律知识生成、案例剖析、保单分析等,因为产出结果可能并非完美,需要投入大量人力资源,并经过多轮模型调优,才能达到较为理想的产出。因此,投入产出比可能会较高。

 

至于监管方面,像最近出台的深度生成相关的监管政策,也需要我们考虑。主要涉及几个方面。首先,需要关注是否会侵犯作曲家、作家、画家等知识产权或版权,以及是否容易产生虚假信息。在生成结果的监管方面,我们需要确保配套的内容审查和管理机制,以确保生成的文本和图像不侵犯知识产权。同时,对于传统行业,合规和风险控制也是重要的考虑因素。随着实验的发展,大模型产业链可能会形成,其中一些人致力于生成大模型的生产资料,而其他人则致力于防止大模型生成失控的措施。这种对应关系的建立将经过时间的迭代,以便在法律法规和道德规范的框架下实现大模型的生成与监管的良好平衡。

 

徐文浩:我们不只会有 AI 公司,还会有专门的 AI 安全公司,就跟互联网上有很多专门做安全公司一样。我想请教下王素文老师对 AI 安全和监管问题上的看法。

 

王素文:首先,我们在进行领域模型或大模型的训练时,数据的合规性和合法性至关重要,应该通过正规的渠道获取数据,并确保数据的安全和保密性。

 

其次,当我们为客户进行领域模型训练时,我们必须确保企业内部数据的安全合规性,并且不同企业之间的数据应该进行隔离,不能随意复用或在训练中使用。此外,在为客户训练领域模型时,我们还需要进行微调和对齐,以确保输出的模型符合合规要求。

 

从监管层面来看,政府部门在制定监管框架时需要借助跨学科和跨领域的专家知识。我们与信科院合作,共同建立健全的监管框架,并与其进行深度合作。我们也在与信科院进行安全认证,以确保我们的大模型经过了严格的测试和验证。

 

只有通过政府、专家和企业的合作,我们才能推动 AIGC 的健康发展,满足用户需求,并确保大模型的安全使用。

 

在智能客服领域,企业的核心壁垒是什么?

 

徐文浩:对于智能客服领域,大家都在做多轮对话,情感分析,那企业的核心壁垒是什么呢?

 

王超:对于智能客服行业而言,同质化问题与企业采购智能客服建设目标和预期的 ROI 密切相关。在京东,企业在建设智能客服时应将其发展目标分为初阶、中阶和高阶(或成熟)三个阶段。如果客户的目标仍处于初阶阶段,即仅需简单的问答和查询功能,那么采购智能客服的需求可能相似。在这种情况下,同质化程度可能较高。但如果客户的需求定位在更高级的目标,例如提供主动服务、全程跟进和全情景化服务等,那么就需要考虑智能客服供应商是否具备与之匹配的运营方法论和相关的完整运营工具体系。基于这个逻辑,我认为当前一代智能客服产品的核心壁垒之一是供应商是否具备复杂成熟的机器人项目经验和丰富的运营经验。

 

另一个关键点是,智能客服公司除了提供相关产品和技术外,还能否提供长期规划和指导意见的运营方法论,以及相关的配套运营工具体系。同时,我们是否能够帮助客户建立人才梯队,并提供培训服务。在当前一代智能客服中,这些因素非常重要。

 

至于未来,大模型将成为一个重要壁垒。对于你所提及的产品,能否将不同类型的大模型与原有产品能力有效融合,将是一个关键因素。同时,具备大模型开发能力也将成为一个独特的竞争优势。

 

徐文浩:我相信每家公司都会觉得自己在智能客服或者类似的这个产品上有独到的优势。贾老师,就您公司产品来讲,它的壁垒体现在哪?

 

贾皓文:从传统客服到大模型客服,整个过程可以看作是一种竞争壁垒。虽然在算力、数据量方面,我们可能无法与大厂竞争,但在交叉学科领域,如心理学知识在大模型训练中的应用,以及对认知智能与大模型应用的交叉领域,我们可能具备先发优势。对于其他公司而言,也可以结合自身特点,在日益同质化的大模型服务和训练过程中脱颖而出。

 

王素文:这个问题实际上归结到两个核心点:智能客服公司需要考虑如何盈利和提高毛利率。为了实现这一点,首先要关注两个方面。第一,你需要提供优质的智能客服服务,让客户满意,这样你的企业才能长久发展。因此,关注产品的效果至关重要,包括产品力和智能化效果的提升,以提高用户体验和满意度。第二,注重提高效率,考虑投入产出比问题,降低成本并提高项目的毛利率。项目交付和运营效率的提升是关键,要考虑产品满意度、部署实施的效率以及与客户业务系统的快速集成和运营内容的对接。你需要拥有完整的交付方法论和运营工具来提高项目的毛利率,以实现盈利并保持持续发展。

 

智能客服公司可以分为两类,一类是垂直领域的专业厂商,另一类是通用型厂商。垂直领域的智能客服厂商专注于特定领域,例如电商或保险,他们的优势和壁垒在于行业聚焦,持续优化行业知识图谱和数据,提供特殊的解决方案和核心竞争力。中关村科金作为对话式 AI 解决方案提供商,我们专注于金融、政务、零售等多个行业,已为 900 多家行业领军企业提供服务,并积累了丰富的行业知识。我们还计划推出通用和领域大模型,通过整合对话引擎,升级智能客服、外呼机器人、陪练和质检助手等产品,以提升我们在行业中的竞争力。

 

其次,提高交付和运营效率也是关键。产品满意度对于降低项目交付成本至关重要,而高效的部署和实施,以及与客户业务系统的快速集成和运营内容对接,将提高运营效率。你需要拥有一整套交付方法论和运营工具,确保项目的毛利率最大化。这样做将使你能够盈利并保持长期可持续发展。

 

AIGC 会完全替代传统的客服人员吗?

 

徐文浩:三位老师提到了 3 个核心壁垒:首先是聚焦垂直领域,其次是在产品层面寻求差异化,第三是跨学科的设计。这些措施将帮助企业在竞争激烈的市场中脱颖而出,为客户提供独特的价值。那今天最后一个问题,请用简单的语言畅想下未来 AIGC 在这个领域的发展, AIGC 会不会完全替代掉传统的客服人员?

 

王超:作为一个从业者,我对 AIGC 的前景持乐观态度,而取代的问题涉及不同的视角。一种观点是以存量市场的视角看待,认为客服行业的市场空间有限,因此 AIGC 可能会取代传统人力。然而,我更倾向于从增量的角度来考虑。

 

首先,智能客服仍然需要人类运营支持,在从传统客服到智能客服的转变过程中,运营人员仍然扮演着重要的角色。其次,未来的运营模式可能会发生变化,智能客服与人工运营人员配合,形成一种新的作战模式。这种模式下,少数运营人员可以携带智能客服机器人,提供高质量的 24 小时服务,而且成本较低,这可以让更多的小微企业以新的方式提供客户服务,并扩大市场规模。总之,从增量的角度来看,智能客服不会完全取代传统客服,而是与其相辅相成,为市场带来新的机会和发展空间。

 

王素文:在可预见的未来,人工客服不会被完全取代,因为它们在处理复杂问题、思考性问题以及情感问题上具有独特的优势。特别是在处理高价值客户、潜在客户以及提高客户转化率方面,人工客服仍然扮演着重要角色。由于获取客户的成本较高,通过人工客服进行高效跟进并确保成交仍然是许多企业所希望的。因此,人工客服和智能客服之间更多是一种相互结合的合作模式。企业需要根据自身情况考虑人工客服和智能客服的优势,并制定最佳的客户服务模式。

 

在整体上,我认为 AIGC 未来的发展空间是广阔的,并且整个行业也已经看到了这一点。在未来的两三年中,AIGC 和类似 ChatGPT 的技术将以高速发展,并推动整个企服产业的升级。互联网和企服行业都将经历大规模的升级和变革,包括配套设施的改进。目前 AIGC 仍存在一些问题,如内容质量、投资成本、数据安全和版权等方面。因此,我们仍然需要更长远的发展,包括探索更精密、更有效的建模方式,以改进这些问题。我相信随着技术的进步,大模型的发展空间将是无限广阔的。

 

贾皓文:确实,我们不应过于强调替代性,而是关注未来将带来的工作模式和业务模式的变革。在推进业务的过程中,我们需要衡量投入产出比,特别是在客服推进中需要考虑用户数据隐私的安全性、法律法规的遵守以及跨场景、跨行业的拟人化服务。大模型能够为传统客服人员带来很高的价值,它们会带来质的变革,但并不意味着取代人工客服。总的来说,尽管大模型目前存在一些问题,但它在未来的前景非常广阔。用一句比较文艺的话来说,未来不久大模型的发展将从梦境变成现实,我们很快就能亲身体验到。

 

徐文浩:感谢三位老师的精彩分享,我们今天的直播就到这里了,感谢观众们的陪伴,我们下期再见。

 

2023-08-02 17:573444
用户头像
李冬梅 加V:busulishang4668

发布了 772 篇内容, 共 349.2 次阅读, 收获喜欢 973 次。

关注

评论

发布
暂无评论
发现更多内容

MySQL索引知识介绍

Simon

MySQL 索引结构

何时开始重构?

Page

敏捷开发 重构

太赞了,VSCode 上也能画流程图了!

GitHubDaily

visual-studio GitHub 程序员 vscode 开发者工具

用"结构性张力"构建自驱力

Yanel 说敏捷产品

团队管理 敏捷 团队协作 项目

提升编程效率:重构

Page

高效工作 敏捷开发 重构 高效

数据分析的利器-clickhouse概述

流沙

数据库 Clickhouse

工程师、程序员和产品经理

王泰

程序员 产品经理 IT 软件工程师 工程师思维

KK日知录20200515

kimmking

近期工作的几点感想

Leiy

app退出登录

Java实现Base64

Java

Kafka零数据丢失的配置方案

奈学教育

kafka kafka配置 kafka数据

spring注入bean的几种策略模式

王德发

Java Spring Boot 测试驱动开发实战营

多多益善的MacOS文件管理方案

陈东泽 EuryChen

macos Mac apple 提升效率 文件管理

学习型组织的修炼之道

Yanel 说敏捷产品

团队管理 项目管理 敏捷 团队协作 组织转型

【Howe学爬虫】全国统计用区划代码爬取

Howe

Java 爬虫

为什么我喜欢的大V拉黑我?

lmymirror

经历 后真相时代 日常思考

真的!只需 “六步” 实现图像特定物体识别!!!

周果

Python OpenCV 计算机视觉 图像识别 物体检测

揭秘!开源软件背后的神秘组织

Apache Flink

大数据 flink 流计算 实时计算

看完这篇操作系统,和面试官扯皮就没问题了

cxuan

操作系统 计算机基础

【大咖说问大咖】关于开源的那些事 —— PingCAP CTO 黄东旭 Q&A 交流帖

InfoQ写作社区官方

开源 写作平台 大咖说 技术交流 热门活动

原创 | 使用JUnit、AssertJ和Mockito编写单元测试和实践TDD (七)CORRECT边界条件

编程道与术

Java 编程 软件测试 TDD 单元测试

常见的主从报错集锦

一个有志气的DB

MySQL 主从配置 主从同步

MySQL备份基础

一个有志气的DB

MySQL 数据

敏捷团队成员的工作量指标真的那么重要吗?

金生水起

敏捷开发 Scrum精髓 敏捷精髓 Agile

搜商:高效的使用搜索引擎

石云升

高效搜索 搜索技巧 搜商

Serverless: 2020年函数计算的冷启动怎么样了

刘宇

2020 敏捷产品基本盘

Yanel 说敏捷产品

产品 敏捷 产品设计 产品推荐

从ClickHouse的名字由来讲起

nauu

数据库 大数据 分布式 OLAP Clickhouse

Android | Tangram动态页面之路(一)需求背景

哈利迪

android

Intellij IDEA2020.x如何安装Lombok插件

龙眼果

开发者工具

BVR 才是变革的核心

Yanel 说敏捷产品

团队管理 项目管理 敏捷 敏捷开发 敏捷精髓

AIGC如何掀起智能客服“新革命”? | InfoQ《极客有约》_生成式 AI_李冬梅_InfoQ精选文章