
2025 年 4 月 10 - 12 日,QCon 北京站将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。
快手多模态模型高级算法专家高欢已确认出席并发表题为《多模态理解技术在短视频上的思考与应用》的主题分享。具体围绕社交短视频理解任务展开,首先介绍多模态理解技术的发展现状,讲述应用产品视角和学术定义视角的多模态理解能力,并介绍业界主流的技术方案。随后将围绕社交短视频的特点和痛点展开,介绍一套经过验证的解决方案流程。最后,将围绕两个近期的热门多模态方向进行讨论:视觉 R1 和 Benchmark 。
高欢目前是快手快意多模态基座模型负责人,主要负责 AI 生成场景背后的多模态理解研发工作,深度参与快手多个 AIGC 算法技术落地。主要研究兴趣包括:多模态大语言模型、视频理解编码器、大语言模型,曾在 NeurIPS、ACL、AAAI、ECCV、ICDE 等顶级学术会议上发表多篇论文。本次会议中,他的详细演讲内容如下:
演讲提纲
1. 多模态技术的发展
多模态技术的应用产品
多模态理解任务分类:感知、认知、定位、推理
模型结构:多模态特征融合、动态分辨率处理
长视频理解挑战和解决方案:帧采样和 Token 丢弃
2. 社交短视频理解的难点
社交短视频的特殊性
社交短视频理解任务
3. 社交短视频理解任务的解决方案
数据飞轮:社交短视频并不是脏数据
信息堆积方案:非端到端,有利有弊
视频 Token 压缩方案:内容完整性非常重要
效果对比
4. 未来与展望
视觉 R1,真的想好要推理什么了吗?
Benchmark 比比皆是,足够衡量多模态理解能力吗?
您认为,这样的技术在实践过程中有哪些痛点?
忠实于内容和联想推理,在视频理解上是一对跷跷板的存在。剪辑特效类视频与自然事件类视频是影响模型偏好的两个不同方向。基于自己的业务场景,如何找到最佳的平衡点,是最重要的痛点
演讲亮点
多模态技术飞速发展,“刷榜秘籍”已经漫天都是,但本次演讲不教大家如何刷榜,而会与大家交流如何从实用的角度看待多模态理解问题
听众收益
交流多模态理解上更有意思和有价值的工作方向
除此之外,本次大会还设置了多模态大模型及应用、AI 驱动的工程生产力、面向 AI 的研发基础设施、不被 AI 取代的工程师、大模型赋能 AIOps、云成本优化、Lakehouse 架构演进、越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。
目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。

为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088
评论