写点什么

顺丰揭秘:大模型技术如何重塑物流供应链

  • 2024-08-22
    北京
  • 本文字数:5109 字

    阅读完需:约 17 分钟

顺丰揭秘:大模型技术如何重塑物流供应链

物流与供应链系统的庞大规模、环节的复杂多变、数据的复杂性、场景的多样性,使得物流与供应链系统的建设和运行变得更加复杂。而大模型技术作为 AI 的一项重要成果,在物流供应链领域具有无限的潜力和广阔的应用前景,并在推动物流供应链领域数字化、智慧化变革中扮演着不可忽视的角色。


在 8 月 18 日 -19 日的 AICon 全球人工智能开发与应用大会上,InfoQ 荣幸地邀请了顺丰顺丰科技人工智能总工程师高磊,他为我们分享了大模型在物流和供应链场景中的应用,以及顺丰相关技术体系与产品体系的建设思路与实践经验。本文会会前采访文章,期待你对了解大模型在物流行业的应用有所帮助!


以下为采访正文~

InfoQ:顺丰在建设物流决策大模型技术体系时,采用了哪些具体的技术手段和方法?这些技术是如何与现有的物流和供应链系统进行融合的?


高磊: 当前 AIGC 技术主要以文本、图片、语言、视频等模态为主,因此在这些信息相对富集以及以这些模态作为主要信息载体的领域更容易落地,比如售前的营销素材的生成,售后的智能客服,以及办公领域的 FAQ、信息摘要等场景。


但是我们所关注的供应链运营和决策优化领域中,如何利用大模型与其背后的技术去解决供应链运营过程中问题,提升决策质量和效率,帮助客户业务更好的降本增效,目前并未看到很好的行业实践和落地案例。我们结合对于大模型技术的理解与顺丰的业务实践,逐渐摸索出三个方向:


  • 结合顺丰沉淀的业务 know-how 与已有技术能力,构建行业智能体,相关技术被应用于供应链智能控制塔产品中

  • 突破文本、图片等模态的限制,构建物流决策大模型,让大模型技术直接作用于核心决策问题,相关技术被应用于供应链执行优化产品中

  • 基于多模态大模型的能力构建多层级多通道需求预测模型,解决消费供应链领域中需求预测的难点与痛点问题,相关技术被应用于供应链计划产品中

需求预测模型在供应链计划产品中的应用案例

InfoQ:可以介绍一下什么是基于多模态大模型的能力构建多层级多通道需求预测模型吗? 它解决哪些痛点与难点问题?


高磊: 我们构建这个模型的初衷是为了解决消费供应链领域中商品蚕食效应、新品新店预测等业界难题。


首先,需求预测在供应链计划中非常重要,因为他是需求计划、供应计划、生产计划等诸多计划的源头,准确的需求预测对于提升计划准确性,提升供应链效率而言至关重要。但是需求预测本身难度很大,尤其是消费供应链,受到诸多因素的影响,比如新品上市、老品下架、蚕食效应、促销、节假日、季节、天气等。其中蚕食效应,新品和新店的预测一直是行业普遍存在的难题,传统的算法模型难以有效解决这些问题。


以商品蚕食效应和新品上市为例,比如某个门店一直卖 10 种蛋糕,平时所有蛋糕的销量总和是大约 100,然后某一天突然上市了一个新的蛋糕,并做了促销,那么这里会出现两个问题:1. 新蛋糕的销量该如何预测,2. 老蛋糕的销量会受到多大影响?


传统的需求预测模型从单一商品视角建模,在解决这两个问题上存在较大困难:在第一个问题上,因为缺乏历史销量数据,很难建模,往往预测偏差很大,在第二个问题上,单一商品视角的建模难以有效捕捉商品之间的关联关系与相互影响,在上新期间难以捕捉到蚕食效应造成老品系统性的偏高。


为了解决这些行业难点问题,我们设计了基于多模态大模型的能力构建多层级多通道需求预测模型,从特征角度,我们通过预训练好的多模态模型将商品的文字描述如商品名,商品描述,配料表,价格等和商品的图片提取为表征商品内在属性的 Embedding 向量。通过选择合适的多模态大模型,我们发现提取出的 embedding 能够很好的表达商品之间内在的一些相关性。


提取了多模态特征之后,为了更好的学习商品之间的关联性,我们设计了一种多层级多通道的需求预测模型。


这里解释一下层级的概念,消费供应链预测中往往存在多种层级,比如时间层级:日到月到年;空间层级:门店到 RDC 到 CDC;品类层级:具体的 SKU 到二级品类到一级品类,往往在各种层级上都要输出预测结果,并且层级之间的结果应该能够对应上,比如某个门店内所有商品的总销量预测应该等各个商品预测之和。


多层级多通道的需求预测模型能够很好地学习同一层级内的商品之间的内在关联性,以及层级之间的关联性,从而更好的得到预测结果。


InfoQ:这个模型的实际应用效果如何?


高磊: 我们在某个实际客户的场景下做了测试,整体上,新的模型可以在预测准确性上提升绝对值 5 个百分点,这个是我们在传统方式下做了很久也没有难达到的程度。同时得益于多层级多通道统一建模极大的减少了模型的数量,以及 GPU 的使用,在计算性能方面实现了 120 倍的提升,对机器资源的需求也减少了 5 倍。


我们也着重验证了一下新模型在新品等场景下的预测表现,得益于多模态信息的引入与多层级多通道学习机制,新模型能够有效的捕捉到新品和老品之间的相关性与蚕食效应,可以在上新期间取得显著的的新老品预测准确度的提升。

供应链智能体在供应链智能控制塔产品中的应用细节

InfoQ:什么是供应链智能体?它具备一些什么样的能力?解决什么问题?


高磊: 我们知道供应链运营是一个专业程度很高,并且非常严谨的领域,因为任何数据或者决策建议的错误都可能带来比较严重的损失。大模型本身存在一些固有的缺陷如不擅长精确数值计算,幻觉,专业程度不够高等问题,限制了其在供应链运营领域的应用。


比如前端时间公众号上有个比较火的文章,讲得是问大模型 9.11 和 9.8 哪个更大,绝大多数大模型都回答 9.11。再比如把过去一段时间的历史销量和库存数据丢给大模型,让它去做库存优化,大模型也很难去做这种专业的事情。为了解决以上问题,我们的解决思路是结合大模型和专业小模型,以及顺丰多年沉淀的供应链实践,去构建供应链的行业智能体。


具体来说,我们通过 RAG 技术结合我们沉淀的业务知识库,让大模型具备更深入的供应链知识,同时我们将丰智云体系中沉淀的各种算法能力,比如预测、仿真、运筹优化、归因分析等,抽象成工具并交给大模型调用。由此构建出具备供应链行业知识的业务专家智能体与以及具备专业算法能力的算法专家智能体,并通过这些智能体的协作,去服务具体的业务场景,如销售分析,库存优化等场景。通过以上方式,可以有效的改善和缓解大模型在供应链场景下存在固有缺陷。


InfoQ:在供应链智能控制塔产品中,顺丰如何集成供应链智能体的能力?


高磊: 我们知道在供应链控制塔中,有一块很重要的能力是供应链诊断与分析能力,传统方式下,我们需要建立大量的报表来呈现业务指标与各种问题,但是这种形式是相对静态的,当出现新的场景和问题的时候往往还是需要手动获取数据、分析数据或者开发新的报表,难以敏捷的响应新的需求。


另外,从数据分析角度来看,大致存在 3 种类型的分析:


  1. 描述性分析:对数据进行整体概括和总结,以了解数据的基本特征和趋势,形成对业务现状的整体认识

  2. 诊断性分析:通过深入挖掘数据的背后原因,解释数据异常或变动的原因,并为问题提供决策依据

  3. 预测性分析:利用历史数据和模型来预测未来事件或趋势的发展,为决策提供先见之明


目前传统的控制塔还是以描述性分析为主,在诊断性分析和预测性分析方面提供的支持较少。


通过将供应链智能体融入到丰智云塔产品当中,通过多个智能体的协作,针对履约、库存、销售等领域的问题,提供从指标查询与分析到异常识别与归因再到提供优化建议的完整的服务支持,从而为客户提高更敏捷与高效服务。而在这些服务的背后,智能体利用的是成熟、专业的预测、仿真、运筹优化等模型工具,来确保输出结果的准确与可靠。


物流决策大模型实际效果


InfoQ:什么是物流决策大模型?他与语言大模型等有什么区别和联系?


高磊: 我们知道语言大模型是一个通过 Transformer-Like 的架构,利用自回归的形式进行文字序列生成的模型,而很多人不知道的是物流中的很多问题,其实也可以认为是一个序列生成或者说是序列决策的问题,比如去 3 家门店 a、b、c 送货的一个路径规划问题,可以认为是一个决定先去哪,再去哪,最后去哪的序列生成问题。再比如装箱问题,10 个物品要装到箱子里,也可以认为是一个先装哪个物品,并以什么样的姿态装进去,再装哪个物品这样的问题。


所以,本质上,物流中的很多问题和语言生成的问题一样,都是序列生成的问题,因此均可以采用相同的技术架构来解决。这是他们相同的地方。


不同的地方显而易见,就是模态的不同,不同于语言模型生成的是文字,物流决策模型生成的就是决策本身。另外不相同的点是目标不同,语言模型的目标是生成文字的合理性与有效性,能够符合语言规律并有效解决用户的问题。物流决策模型除了生成决策要合理外,还有优化目标在里面,比如生成的线路成本越低越好。


丛技术角度来说,我们知道语言大模型本身基于两大关键技术,Transformer 和 RLHF,其中 Transformer 在很多算法场景下的成功应用已经充分证明了其能力的强大,而 RLHF 技术因其解决了人类价值观与偏好对齐等问题,将大模型的实用程度推上了前所未有的程度。在物流大决策模型中,我们也是基于这两大技术进行了构建,以路径规划场景为例,通过 Transformer 架构并结合顺丰海量的场景以及规划数据,构建了路径规划的基座模型,并通过 RLHF 技术来解决与业务偏好和具体业务场景对齐的问题。


InfoQ:如何将物流决策大模型应用到供应链优化产品中,它能够带来一些什么样的优势? 具体落地效果如何?


高磊: 总体来讲物流决策大模型带来两方面的显著优势,第一个是计算性能方面,传统的运筹模型主要基于搜索的机制,在一定引导下在一个巨大的解空间里面尽可能的搜索较好的解,当问题规模变大,解空间指数级别增长时,往往搜索到较高质量的解需要相对较长的时间,而物流决策模型基于序列生成的方式,在训练的较好的情况下,能够快速将较高质量的结果直接生成出来,再经过 GPU 高速并行计算的加持,能够很快的得到结果。


以我们实际鲁多的某客户装箱优化场景举例,目前我们可以平均 20ms 的时间内计算出一个使用传统运筹方法需要 10 分钟才能计算出来的订单,并且得到的解还能略微超过传统运筹方法。


另外一方面的优势来自于 RLHF 微调技术,通过 RLHF 我们可以让我们的模型有能力学习到业务在特定场景下的业务偏好与特殊需求。这将我们的产品在面对业务变化与新的算法场景时候可以从定制开发方式转向数据驱动的方式。


具体来说,在传统方式下,当业务变化或者新的场景出现时,我们需要我们的算法工程师不断的和业务沟通并理解业务,然后设计针对性的算法,并做很多 POC 试验,输出结果给到业务进行验证,往往这个过程会反复很多次并持续很久,因为往往业务无法将所有影响因素和潜在的业务规则一次性说清楚,很多时候碰到问题才解决问题。


使用 RLHF 微调技术,我们可以以数据驱动的方式解决很多问题,当输出结果不满足业务预期时,用户可以自己对结果进行调整,我们的产品会记录调整过程,逐渐积累业务偏好数据,并使用业务偏好数据不断进一步优化我们的模型,使输出的结果越来越符合业务实际需要。


当然这里面需要额外考虑的问题是并不是所有的业务调整或者业务偏好都是合理的,因此我们在产品里面设计了偏好与优化效果之间权衡机制,用户可以自己调整更偏向于“像人”还是优化。


InfoQ:您认为大模型技术在未来供应链管理中的潜在应用有哪些预期或愿景?


高磊: 以上三个工作是目前我们决策大模型技术在供应链管理中的应用方面进行的初步探索,我觉得还远远没有完全发挥出大模型技术的所有潜力,也还有很多潜在的应用场景没有被挖掘,我们希望能够和业界的生态合作伙伴与友商一起,持续深耕这样一个领域,为提升供应链的数智化水平、实现行业共同进步方面添砖加瓦。


嘉宾介绍:高磊, 顺丰科技人工智能总工程师,拥有 10 年 + 机器学习与运筹优化算法经验,研究方向为 NLP、运筹优化、强化学习等。2016 年加入顺丰,现任顺丰科技人工智能总工程师,曾主导顺丰集团内部多个数智化项目的研发与落地工作,涉及领域包括业务量预测、陆运干支线规划与调度、航空规划与调度、运力规划、场站选址、物资调拨等。目前主要负责集团智慧供应链体系建设相关工作。期间带领团队获得十余项发明专利,中物联物流技术创新奖、CCF BDCI 一等奖、最具商业价值奖,运筹帷幄年度行业实践奖与学术应用奖等荣誉。


活动推荐


AI 应用开发正在逐步成为各行业内的核心创新驱动力,CUI 式的对话助手、串联业务流程的 Agent 或是内嵌在原有业务逻辑中的 AI 模块,都在不断拓展面向用户的新应用场景。我们惊喜地看到从中小创业公司到大型企业,都在利用计算机视觉、自然语言处理、个性化推荐、对话式交互等 AI 能力提升业务效率、优化用户体验,显著增强了产品的市场竞争力。10 月 18-19 日,来 QCon 全球软件开发大会(上海站),了解更多成功应用 AI 技术的案例与最佳实践。



2024-08-22 18:0811428

评论

发布
暂无评论
发现更多内容

共筑AI开源繁荣生态 | 新一代人工智能院士高峰论坛深度学习框架分论坛成功举办

OpenI启智社区

PassJava 开源 (九) :Spring Cloud 整合 Gateway 网关

悟空聊架构

SpringCloud Gateway passjava 悟空聊架构

初探语音识别ASR算法

华为云开发者联盟

算法 语音识别 ASR 语音转写文章 声学模型

OPPO小布助手算法系统探索、实践与思考

安第斯智能云

算法

10个Node.js 开发人员必须使用的IDE

编程江湖

node.js

Soul运维总监尤首智:企业如何从0到1建设云上运维体系

阿里云弹性计算

阿里云 云上架构 运维峰会

滴滴数据通道服务演进之路

Kafka中文社区

技术揭秘!百度搜索中台低代码的探索与实践

百度Geek说

中台 后端 低代码 搜索

华为与湖北三所高校共建首批鲲鹏&昇腾产教融合育人基地

科技热闻

智算未来 | 2021新一代人工智能院士高峰论坛智算网络分论坛成功举办

OpenI启智社区

确保关键基础设施精确授时与同步的弹性、冗余和安全性

科技热闻

性能分析之Linux系统平均负载案例分析

zuozewei

Linux 性能分析 12月日更

完蛋,我的事务怎么不生效?

秦怀杂货店

MySQL 数据库 事务 事务失效

版本不兼容Jar包冲突该如何是好?

vivo互联网技术

jar Java 开发

饿了么资深架构师分享云上基础架构演进

阿里云弹性计算

云上架构 运维峰会

SpringBoot应用和PostgreSQL数据库部署到Kubernetes上的一个例子

汪子熙

Kubernetes k8s 28天写作 docker build 12月日更

Arctic:网易数帆开放式流批一体表服务 | BDTC 精彩回顾

网易数帆

大数据 数据湖 iceberg 流批一体 Arctic

【转】java开发之spring面试题

@零度

JAVA开发 spring框架

kafka丢失和重复消费数据

编程江湖

大数据 kafka

迭代你好,我是冲刺

华为云开发者联盟

Scrum 开发 迭代 冲刺 迭代增量开发

云原生时代,需要什么样的数据库?

博文视点Broadview

给弟弟的信第26封|做一个懂得感恩的人

大菠萝

28天写作

PingCAP x 亚马逊云科技,为 TiDB 云端体验“加冕”

PingCAP

一文带你了解数据库连接池的必要性

编程江湖

数据库 JAVA开发

大数据开发Hive之如何进行数据抽样

@零度

大数据 hive

面试被问一致性hash?看这一篇就够了

公众号:程序猿成神之路

Jira Software 年度总结:12个重要功能大放送!

Atlassian

DevOps 敏捷 Atlassian Jira ITSM

Golang协程之了解管道的缓存能力

恒生LIGHT云社区

Go golang

最强最全面的大数据SQL系列

五分钟学大数据

sql 大数据 hive

网络安全好学吗?网络安全入门篇,安装渗透测试系统kali全套教学

学神来啦

运维 网络安全 渗透测试· kali基础 kali Linux

教你Python字符串的基本操作:拆分和连接

华为云开发者联盟

Python 连接 字符串 拆分 拆分字符串

顺丰揭秘:大模型技术如何重塑物流供应链_AI&大模型_李忠良_InfoQ精选文章