AICon 上海站|90%日程已就绪,解锁Al未来! 了解详情
写点什么

突破算法评测困境:饿了么即时配送算法评测与优化实践 |QCon 北京

  • 2025-03-26
    北京
  • 本文字数:2000 字

    阅读完需:约 7 分钟

突破算法评测困境:饿了么即时配送算法评测与优化实践 |QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


饿了么资深技术专家李佳慧已确认出席并发表题为《突破算法评测困境:饿了么即时配送算法评测与优化实践》的主题分享。即时配送业务需要在规定的时间和空间范围内,调度千万量级的订单和百万量级的骑手进行匹配,过程中应用了大量的智能算法。由于算法的可解释性弱、线下评测难度大等问题,饿了么在算法评测领域进行了深入的探索和实践。核心聚焦在算法效果评测的方案生成和平台建设,涵盖评测集筛选、评测指标制定,算法服务结果采集、评测报告生成、分析和 badcase 归因定位,最终给出线下评测结论,同时在效果评测和 badcase 分析的基础上,进一步给出算法优化方向的建议,帮助算法团队在上线前把控算法的迭代效果,缩短迭代优化周期。目前,基于该评测理论开发的算法评测平台支持可定制化的评测和分析定位能力,覆盖了饿了么的商流、物流等多个算法方向,显著提升了算法迭代的效率和质量。本次演讲李佳慧将分享饿了么即时配送算法评测与优化过程中的痛点案例及解决之道。


李佳慧,饿了么资深技术专家。在 IBM 从事 Rational 软件管理相关产品 RQM 的开发工作以及在 vmware 从事虚拟化产品的质量保障工作;2016 年加入阿里后,在阿里妈妈从事广告搜索引擎质量保障;2020 年开始在饿了么物流团队负责履约等核心链路的质量保障工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 算法迭代流程中常见问题和痛点

2. 算法效果评测方案 & 平台落地 & 案例

  • 算法评测指标设计

  • 筛选和生成自带标签的评测集

  • 算法服务数据采集

  • 评测结果处理及报告生成

3. Badcase 分析归因 & 平台落地 & 案例

  • 规则分类归因

  • Shap 模型可解释

  • 基于流量染色的实时 Debug

  • 日志复现

4. 算法效果优化分析 & 落地

5. 落地实践 & 展望

  • 平台支撑的业务方向

  • 落地情况 & 效果

  • 新技术的应用与探索


您认为,这样的技术在实践过程中有哪些痛点?

  • 在新的算法方向接入时,需要设计和不断调试评测指标、以及调整评测集采集规则,过程比较耗时,并且需要该方向的同学有较深的经验积累;需要考虑初步的解法

  • 针对一些实时特征依赖多的算法评测,需要结合开发特征的 mock 能力,否则实时指标波动大,对预期结果的影响较大;--根据目前探索,建议先从读场景切入,后续深入到写场景,使用 mock 方式


演讲亮点

1. 算法效果评估前置 vs 传统 AB 实验后验

  • 业界现状:强依赖空跑、灰度 AB 实验等后置验证链路质量和效果,问题发现滞后(至少需天级别或周级别的时间),业务有损

  • 本方案优势:通过线下前置对模型 & 算法工程链路做整体的效果评估,利用历史埋点数据做加工,筛选出带有标签的有针对行的评测集,对待测算法服务进行评估,前置评估出效果指标以及按照规则筛选出 badcase,同时提供漏斗式分层归因排查方式,帮助算法快速定位问题,进行优化

2. 自动归因体系 vs 人工排查

  • 业界现状:Badcase 依赖人工标注、单点的分析排查工具,耗时长且依赖经验

  • 本方案创新:三层归因漏斗:日志规则→ Shap 解释→实时 Debug(或日志复现等方式),实现 70% 以上问题的自动归因;先根据规则做问题分类


针对模型效果类问题,使用 shap 可解释工具,量化特征贡献度(如“商户位置”特征在超时预测中权重),辅助算法快速调优评估出特征重要度;针对算法策略问题,使用实时 debug 等方式,定位策略代码问题。同时在分析基础上,给出算法优化方向建议。


听众收益

  • 从质量和稳定性的方向上,了解前置的算法效果评测的方法论及整体的解决方案:过往算法效果更多依托线上的 AB 实验等方式进行验证,不仅回收效果时间长还可能对线上业务造成影响。本方案介绍了在线下如何更前置的对算法模型进行评测

  • 了解先进的 Badcase 归因技术及实践应用:讲解算法 Badcase 自动分类归因机制,涵盖基于日志的诊断、Shap 模型解释下的特征影响分析、以及实时 Debug 功能支持下的问题快速定位方法。这部分内容不但帮助算法线下调优,针对线上问题也可以进行快速诊断,提升解决问题能力和迭代效率

  • 了解在算法效果评测数据分析基础上,寻找算法优化方向的方法以及实践


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。


为确保大会顺利举行,现诚邀大二以上学生加入志愿者服务,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-26 16:183883

评论

发布
暂无评论

三江学院计算机科学与工程学院举办“火焰杯”软件测试开发选拔赛颁奖仪式

测吧(北京)科技有限公司

软件测试 测试

使用 Databend 加速 Hive 查询

Databend

源码级解决方案一键部署,华为云Solution as Code正式上线

科技怪授

购物季订单多管理难?用WeLink轻松搞定

科技怪授

华为云发布《基于MetaTown构建数字资产平台》

爱尚科技

WeLink&SKG,让年轻人爱上养生

i生活i科技

腾讯云升级发布两大区块链产品,助力产业区块链数字化生态建设

科技热闻

腾讯云曹磊:双碳、双循环政策驱动下,消费电子行业的新机遇

科技热闻

从React源码角度看useCallback,useMemo,useContext

goClient1992

React

BSN-DDC基础网络DDC SDK详细设计(七):数据解析

BSN研习社

BSN-DDC

从React源码分析看useEffect

goClient1992

React

架构实战营模块 7 作业

陌生流云

架构实战营

腾讯产业生态规模大、增速快、质量高,2023年将加大生态开放力度

科技热闻

iOS 查找字符串出现的范围

刿刀

ios swift

雾霾对户外LED显示屏的考验

Dylan

LED LED显示屏 户外LED显示屏

从React源码来学hooks是不是更香呢

goClient1992

React

国产开源操作系统OpenCloudOS新进展:装机量超1000万节点,合作伙伴超500 家

科技热闻

基于云原生的火山引擎边缘云应用与实践

火山引擎边缘云

分布式 云原生 边缘计算 节点 火山引擎边缘计算

星环科技数据中台解决方案,助力某政府机构建设新型智慧城市

星环科技

嵌入式系统硬件概述

timerring

嵌入式系统 12月月更

BSN开放联盟链“中移链”浏览器2.0正式发布!

BSN研习社

BSN 中移链

深入浅出Seata的AT模式

Java 架构

一文读懂|2021年数据库领域精彩回顾

YMatrix 超融合数据库

三江学院计算机科学与工程学院举办“火焰杯”软件测试开发选拔赛颁奖仪式

霍格沃兹测试开发学社

SEAL 0.3 正式发布:国内首个全链路软件供应链安全管理平台

SEAL安全

安全 全链路 软件供应链 SEAL

华为云发布《高可用网站架构云化解决方案》

爱尚科技

WeLink助力中建西南院成功举办数字赋能培训

i生活i科技

结合RocketMQ 源码,带你了解并发编程的三大神器

华为云开发者联盟

RocketMQ 开发 华为云 12 月 PK 榜

译文 | A poor man's API

API7.ai 技术团队

API APISIX RESTful API

一线大厂为什么面试必问分布式?

钟奕礼

Java 程序员 java面试 java编程

刘德华在线演唱会,火山引擎边缘云助力打造极致视频直播体验

火山引擎边缘云

云原生 边缘计算 节点 火山引擎边缘计算

突破算法评测困境:饿了么即时配送算法评测与优化实践 |QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章