QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

多模态理解技术在短视频上的思考与应用|QCon 北京

  • 2025-03-31
    北京
  • 本文字数:1198 字

    阅读完需:约 4 分钟

多模态理解技术在短视频上的思考与应用|QCon 北京

2025 年 4 月 10 - 12 日,QCon 北京站将汇聚全球 140+ 技术先行者及创新实践者,直击行业痛点,解锁可复制的经验与模式。这不仅是一场会议,更是一次对技术演进的集体探索。无论你是资深开发者,还是技术管理者,都能在这里有所收获,为下一步的技术决策提供方向。


快手多模态模型高级算法专家高欢已确认出席并发表题为多模态理解技术在短视频上的思考与应用的主题分享。具体围绕社交短视频理解任务展开,首先介绍多模态理解技术的发展现状,讲述应用产品视角和学术定义视角的多模态理解能力,并介绍业界主流的技术方案。随后将围绕社交短视频的特点和痛点展开,介绍一套经过验证的解决方案流程。最后,将围绕两个近期的热门多模态方向进行讨论:视觉 R1 和 Benchmark 。


高欢目前是快手快意多模态基座模型负责人,主要负责 AI 生成场景背后的多模态理解研发工作,深度参与快手多个 AIGC 算法技术落地。主要研究兴趣包括:多模态大语言模型、视频理解编码器、大语言模型,曾在 NeurIPS、ACL、AAAI、ECCV、ICDE 等顶级学术会议上发表多篇论文。本次会议中,他的详细演讲内容如下:


演讲提纲

1. 多模态技术的发展

  • 多模态技术的应用产品

  • 多模态理解任务分类:感知、认知、定位、推理

  • 模型结构:多模态特征融合、动态分辨率处理

  • 长视频理解挑战和解决方案:帧采样和 Token 丢弃

2. 社交短视频理解的难点

  • 社交短视频的特殊性

  • 社交短视频理解任务

3. 社交短视频理解任务的解决方案

  • 数据飞轮:社交短视频并不是脏数据

  • 信息堆积方案:非端到端,有利有弊

  • 视频 Token 压缩方案:内容完整性非常重要

  • 效果对比

4. 未来与展望

  • 视觉 R1,真的想好要推理什么了吗?

  • Benchmark 比比皆是,足够衡量多模态理解能力吗?


您认为,这样的技术在实践过程中有哪些痛点?

  • 忠实于内容和联想推理,在视频理解上是一对跷跷板的存在。剪辑特效类视频与自然事件类视频是影响模型偏好的两个不同方向。基于自己的业务场景,如何找到最佳的平衡点,是最重要的痛点


演讲亮点

  • 多模态技术飞速发展,“刷榜秘籍”已经漫天都是,但本次演讲不教大家如何刷榜,而会与大家交流如何从实用的角度看待多模态理解问题


听众收益

  • 交流多模态理解上更有意思和有价值的工作方向


除此之外,本次大会还设置了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情信息可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-31 10:021

评论

发布
暂无评论

828云服务触手可及!华为云Flexus X实例再掀上云浪潮

轶天下事

提示词并非魔法,而是可以被解析的”咒语“

InfoQ_cc89bbb4b601

人工智能 AI LLM 提示词 提示词工程

828加速数字化转型!华为云Flexus X实例3重优势上云无忧

轶天下事

使用 Higress AI 插件对接通义千问大语言模型

Se7en

mcgs笔记 构件联动 滑动输入与百分比填充

万里无云万里天

HMI 工厂运维 mcgs

828首选“小快轻准”云服务!华为云Flexus X实例助力扫清上云阻碍

轶天下事

试验大模型的图像识别能力

AIGC.TWang

图像识别 多模态 大模型 AIGC AI大语言模型

mcgs笔记 菜单栏中工具下的功能(上)

万里无云万里天

HMI 工厂运维 mcgs

mcgs笔记 程序保护 设置各种密码

万里无云万里天

HMI 工厂运维 mcgs

mcgs笔记 动画组态 分段填充颜色

万里无云万里天

HMI 工厂运维 mcgs

828开启上云第一步!华为云Flexus云服务器X实例“柔性算力”领先体验

轶天下事

mcgs笔记 有线网络连接

万里无云万里天

HMI 工厂运维 mcgs

828轻量级云服务器超值!华为云Flexus X实例助力业务高速增长

轶天下事

【第4期】搜索客 Meetup | INFINI Pizza 网站 SVG 动画这么炫,我教你啊!

极限实验室

SVG ChatGPT 极限科技 Pizza 搜索客社区

PIRF-410-Opinion-Is it funny?

Echo!!!

English

mcgs笔记 优盘包制作

万里无云万里天

HMI 工厂运维 mcgs

“柔性算力”首款云服务器亮相828!华为云Fleus X 实例体验升级

轶天下事

828上云正当时!华为云Flexus X实例革新云服务体验

轶天下事

mcgs笔记 触摸校准程序

万里无云万里天

HMI 工厂运维 mcgs

mcgs笔记 系统变量

万里无云万里天

HMI 工厂运维 mcgs

828上云有妙招!华为云Flexus云服务器X实例帮助上云“破题”

轶天下事

mcgs笔记 菜单栏中工具下的功能(下)

万里无云万里天

HMI 工厂运维 mcgs

AIGC云平台解决方案如何重塑电商设计流程

3DCAT实时渲染

AIGC云平台 AIGC解决方案 AIGC创作云平台

mcgs笔记 系统参数设置界面

万里无云万里天

HMI 工厂运维 mcgs

mcgs笔记 有线网络 上传工程

万里无云万里天

HMI 工厂运维 mcgs

通过文字图像——代码图形注释自动生成

芯动大师

代码 生成式

828数字化转型正当时,华为云Flexus云服务器X实例让上云更简单

轶天下事

多模态理解技术在短视频上的思考与应用|QCon 北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章