写点什么

突破算法评测困境:饿了么即时配送算法评测与优化实践 |QCon 北京

  • 2025-03-26
    北京
  • 本文字数:2000 字

    阅读完需:约 7 分钟

突破算法评测困境:饿了么即时配送算法评测与优化实践 |QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


饿了么资深技术专家李佳慧已确认出席并发表题为《突破算法评测困境:饿了么即时配送算法评测与优化实践》的主题分享。即时配送业务需要在规定的时间和空间范围内,调度千万量级的订单和百万量级的骑手进行匹配,过程中应用了大量的智能算法。由于算法的可解释性弱、线下评测难度大等问题,饿了么在算法评测领域进行了深入的探索和实践。核心聚焦在算法效果评测的方案生成和平台建设,涵盖评测集筛选、评测指标制定,算法服务结果采集、评测报告生成、分析和 badcase 归因定位,最终给出线下评测结论,同时在效果评测和 badcase 分析的基础上,进一步给出算法优化方向的建议,帮助算法团队在上线前把控算法的迭代效果,缩短迭代优化周期。目前,基于该评测理论开发的算法评测平台支持可定制化的评测和分析定位能力,覆盖了饿了么的商流、物流等多个算法方向,显著提升了算法迭代的效率和质量。本次演讲李佳慧将分享饿了么即时配送算法评测与优化过程中的痛点案例及解决之道。


李佳慧,饿了么资深技术专家。在 IBM 从事 Rational 软件管理相关产品 RQM 的开发工作以及在 vmware 从事虚拟化产品的质量保障工作;2016 年加入阿里后,在阿里妈妈从事广告搜索引擎质量保障;2020 年开始在饿了么物流团队负责履约等核心链路的质量保障工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 算法迭代流程中常见问题和痛点

2. 算法效果评测方案 & 平台落地 & 案例

  • 算法评测指标设计

  • 筛选和生成自带标签的评测集

  • 算法服务数据采集

  • 评测结果处理及报告生成

3. Badcase 分析归因 & 平台落地 & 案例

  • 规则分类归因

  • Shap 模型可解释

  • 基于流量染色的实时 Debug

  • 日志复现

4. 算法效果优化分析 & 落地

5. 落地实践 & 展望

  • 平台支撑的业务方向

  • 落地情况 & 效果

  • 新技术的应用与探索


您认为,这样的技术在实践过程中有哪些痛点?

  • 在新的算法方向接入时,需要设计和不断调试评测指标、以及调整评测集采集规则,过程比较耗时,并且需要该方向的同学有较深的经验积累;需要考虑初步的解法

  • 针对一些实时特征依赖多的算法评测,需要结合开发特征的 mock 能力,否则实时指标波动大,对预期结果的影响较大;--根据目前探索,建议先从读场景切入,后续深入到写场景,使用 mock 方式


演讲亮点

1. 算法效果评估前置 vs 传统 AB 实验后验

  • 业界现状:强依赖空跑、灰度 AB 实验等后置验证链路质量和效果,问题发现滞后(至少需天级别或周级别的时间),业务有损

  • 本方案优势:通过线下前置对模型 & 算法工程链路做整体的效果评估,利用历史埋点数据做加工,筛选出带有标签的有针对行的评测集,对待测算法服务进行评估,前置评估出效果指标以及按照规则筛选出 badcase,同时提供漏斗式分层归因排查方式,帮助算法快速定位问题,进行优化

2. 自动归因体系 vs 人工排查

  • 业界现状:Badcase 依赖人工标注、单点的分析排查工具,耗时长且依赖经验

  • 本方案创新:三层归因漏斗:日志规则→ Shap 解释→实时 Debug(或日志复现等方式),实现 70% 以上问题的自动归因;先根据规则做问题分类


针对模型效果类问题,使用 shap 可解释工具,量化特征贡献度(如“商户位置”特征在超时预测中权重),辅助算法快速调优评估出特征重要度;针对算法策略问题,使用实时 debug 等方式,定位策略代码问题。同时在分析基础上,给出算法优化方向建议。


听众收益

  • 从质量和稳定性的方向上,了解前置的算法效果评测的方法论及整体的解决方案:过往算法效果更多依托线上的 AB 实验等方式进行验证,不仅回收效果时间长还可能对线上业务造成影响。本方案介绍了在线下如何更前置的对算法模型进行评测

  • 了解先进的 Badcase 归因技术及实践应用:讲解算法 Badcase 自动分类归因机制,涵盖基于日志的诊断、Shap 模型解释下的特征影响分析、以及实时 Debug 功能支持下的问题快速定位方法。这部分内容不但帮助算法线下调优,针对线上问题也可以进行快速诊断,提升解决问题能力和迭代效率

  • 了解在算法效果评测数据分析基础上,寻找算法优化方向的方法以及实践


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。


为确保大会顺利举行,现诚邀大二以上学生加入志愿者服务,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-26 16:183811

评论

发布
暂无评论

8月份DB-Engines 数据库排行榜最新战况

雨果

数据库

Kubernetes 60个为什么

CTO技术共享

开源 签约计划第三季 8月月更

如何正确理解线程机制中常见的I/O模型,各自主要用来解决什么问题?

PivotalCloud

Linux Linux Kenel

2022秋招前端面试题(九)(附答案)

helloworld1024fd

呵呵,JavaScript 真好玩(苦笑脸)

掘金安东尼

JavaScript 前端 8月月更

是什么影响了MySQL性能?

TimeFriends

8月月更

什么是服务治理

阿泽🧸

服务治理 8月月更

《MySQL入门很轻松》第4章:数据表中存放的数据类型

乌龟哥哥

8月月更

程序员从佩洛西窜访事件中可以学到什么?

慕枫技术笔记

思维 构架 8月月更

781. 森林中的兔子

小卢要刷力扣题

力扣 8月月更

短视频软件开发——平台同质化如何破局

开源直播系统源码

软件开发 直播源码 短视频直播源码 短视频直播系统源码

STM32封装ESP8266一键配置函数:实现实现AP模式和STA模式切换、服务器与客户端创建

DS小龙哥

8月月更

Kubernetes 开发环境比对

CTO技术共享

开源 签约计划第三季 8月月更

数据库治理利器:动态读写分离

阿里巴巴云原生

数据库 阿里云 微服务 云原生

面试突击73:IoC 和 DI 有什么区别?

王磊

Java 常见面试题

每天一个CSS小特效,文字闪烁——【钢铁侠:爱你三千遍】

前端小刘不怕牛牛

JavaScript html/css 8月月更

2022秋招前端面试题(十)(附答案)

helloworld1024fd

一文教会你快速上手 Vim

昆吾kw

vim Linux

Linux服务器端网络抓包和分析实战

程序员欣宸

Java Linux 8月月更

谷歌数据中心发生“电力事故”造成 3 人受伤

雨果

数据中心 谷歌

10min快速回顾C++语法(一)

timerring

c++ 算法 8月月更

Kubernetes YAML编写 讲解

CTO技术共享

开源 签约计划第三季 8月月更

你有对象类,我有结构体,Go lang1.18入门精炼教程,由白丁入鸿儒,go lang结构体(struct)的使用EP06

刘悦的技术博客

Go golang 编程语言 Go web golang 面试

SRv6性能测量

穿过生命散发芬芳

8月月更 SRv6

打工人的第27天-平凡但不平淡的日子

Amazing_eve

#开源

前端食堂技术周刊第 47 期:Docusaurus 2.0 、7 月登陆网络平台的新内容 、Nuxt.js 团队的轮子库

童欧巴

JavaScript 前端

数据治理(五):元数据管理

Lansonli

大数据 数据治理 8月月更

学Python爬虫,不看看m3u8文件如何加密?i春秋 m3u8 文件加密解析

梦想橡皮擦

Python 爬虫 8月月更

RocketMQ Binder集成消息订阅

急需上岸的小谢

8月月更

Kubernetes服务接入Istio

CTO技术共享

开源 签约计划第三季 8月月更

头脑风暴:单词拆分

HelloWorld杰少

算法 LeetCode 数据结构, 8月月更

突破算法评测困境:饿了么即时配送算法评测与优化实践 |QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章