音视频(后端)
关注后端音视频研发实践、技术趋势

RTE 与 AI 共舞:Voice Agent 点燃生态新引擎
本篇文章围绕 RTE 与 AI 生态融合下的用户新体验,Voice Agent 的新生态展开描述,并在结尾提出五大问题以供读者思考。


RTE 和 AI 融合生态洞察报告 2024
本报告专注于探索如何利用实时互动技术与 AI 相结合来提升用户体验,以及社区是如何帮助 Voice Agent 生态建设和发展的。
百度视频搜索架构演进
随着信息技术的迅猛发展,搜索引擎作为人们获取信息的主要途径,其背后的技术架构也在不断演进。本文详细阐述了近年来视频搜索排序框架的重大变革,特别是在大模型技术需求驱动下,如何从传统的多阶段级联框架逐步演变为更加高效、灵活的端到端排序框架。

第十届 RTE 大会开幕,探讨生成式 AI 时代 RTE 的发展与进化
第十届实时互联网大会在北京正式开幕,InfoQ 作为本次大会的社区伙伴。AI、空间计算等 20+ 行业及技术分论坛。

字节跳动基于 TrafficRoute DNS 的超千亿级调度解析优化实践
本文介绍了火山引擎 TRDNS 在泛 CDN 场景中的实践经验和优化措施。内容从能力出发,详细介绍了遇到的挑战、TRDNS 的优化措施、取得的效果。

抖音 Android 端图片优化实践
本文介绍抖音 Android 端通过使用 BDFresco 图片框架进行图片优化的实践、经验和价值,分享问题和解决策略,旨在为同行提供参考。

在 Windows 下玩转多媒体处理框架 BMF
Babit Multimedia Framework(BMF 框架)是一个由火山引擎视频云与 NVIDIA 共同开源的跨语言、跨设备、跨系统的多媒体处理框架,旨在为 Windows 平台提供高效、稳定的多媒体处理能力,支持模块自定义开发,已在字节跳动内部服务于抖音直播伴侣业务,实现算法与业务的解耦,并通过 DirectX 在 Windows 端展示其兼容性和功能适配能力。

火山引擎国际深度学习图像压缩挑战赛蝉联冠军
第六届深度学习图像压缩挑战赛,比赛结果公布,由火山引擎多媒体实验室与北大组成的联合参赛平台 b-2 在高码率视频压缩和低码率视频压缩两个赛道均夺得主客观指标冠军

CVPR 2024 | Modular Blind Video Quality Assessment:模块化无参视频质量评估
本文中,提出了一种模块化 BVQA 模型,以及一种训练该模型以提高其模块化性的方法。

CVPR 2024 满分论文 | Deformable 3D Gaussian: 基于可变形 3D 高斯的高质量单目动态重建新方法
《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被计算机视觉顶级国际学术会议 CVPR 2024 接收。值得一提的是,该论文是首个使用变形场将 3D 高斯拓展到单目动态场景的工作,并且在公开数据集上取得了 SOTA 结果。

深度拆解:CVPR 2024 CAMixerSR 动态注意力分配的超分辨率加速框架
本文将介绍一种名为 CAMixerSR 的超分框架,可以做到内容感知,通过对 Conv 和 Self-Attention 的分配做到计算量的大幅优化。

薪资远超互联网行业平均水平的开发者们,RTE 行业凭什么?| InfoQ 研究中心
在当今这个数字化迅速发展的时代,实时互动(RTE)以通信交互的实时性与灵活可感知的互动性在促进远程沟通、增强用户体验等方面变得不可或缺。

龙游神州:揭秘云 VR 大空间背后的技术魔法
北京地坛网红打卡项目龙游神州是如何通过技术打造古老庙会与现代科技完美融合的云 VR 体验的?


实时互动行业人才生态报告 2024
RTE 开发者社区联合极客邦科技双数研究院旗下 InfoQ 研究中心,协同社区生态伙伴、业界资深从业者、学者专家等共同策划撰写和发布,报告围绕「RTE 行业特征解读」、「RTE Builder 人才画像洞察」、「RTE Builder 人才建设展望」。

陪跑计划发布!顺便和大家聊聊,RTE 开发者社区最近都做了啥
一起来了解下 RTE 开发者社区

RTE2023 开幕 声网宣布首创广播级 4K 超高清实时互动体验
10 月 24 日,由声网和 RTE 开发者社区联合主办的 RTE2023 第九届实时互联网大会在北京举办,声网与众多 RTE 领域技术专家、产品精英、创业者、开发者一起,共同开启了以“智能·高清”为主题的全新探讨。

《云上新视界》第一期:抖音大型直播画质优化实践
在视频化普及的今天,越来越多的大型赛事在抖音平台进行直播,世界杯 / 春晚 / 亚运会等各项赛事节目引来大量用户观看。

抖音同款、2023 必看:火山引擎团队整理的“易复用”的音视频处理经验都在这了
火山引擎视频云与英伟达联合推出的《云上新视界》系列课程即将上线!

和德爷一起 6DoF 互动探险,火山引擎空间重建和虚实融合技术
《跟着德爷闯东非》实现的是全新的 VR 空间互动。

如何利用播放器节省 20% 点播成本?
实践证明,通过播放器的优化可以为点播业务节省 20% 甚至更多的成。

深度解读字节跳动的画质评估工具:抖音也在用~
从抖音集团内部画质评估体系的建设历程着笔,主要分享画质评测对于业务的重要性、主要应用场景和内部产品的一些典型实践。

“视象新生”火山引擎视频云 & AIGC 技术大会开幕在即
8 月 22 日,不见不散!

探秘 B 站多媒体实验室:B 站视频背后的 AI 黑科技是如何炼成的?
B 站多媒体实验室的重点工作方向,以及 B 站如何将 LLM 等前沿技术与多媒体业务相结合的落地探索。

腾讯会议开放战略新进展:“不做硬件”依然是主要策略之一
“不做硬件”的腾讯会议,将生态伙伴发展到了多 200 家。

超低延时直播技术演进之路
探索超低延时直播技术的演进历程,揭示背后的挑战和突破,以及对未来直播行业的影响。

趣丸科技媒体算法负责人马金龙确认出席 ArchSummit 深圳
马金龙将分享《AI 多媒体技术在内容审核场景实践探索》话题,主要针对海量语音内容的审核场景提出了四维一体的多媒体审核技术和流程,通过对特定场景的分析和优化,建设性的提出了基于多模态内容识别的怒骂和炸房标签,为进一步净化语音生态提供了技术支撑。

YTsaurus:EB 级存储和处理系统现已开源
ClickHouse 集成了 YTsaurus 存储系统。

用大模型自动做笔记、提取 PPT、整理访谈,阿里云 AI 新产品“通义听悟”开放公测
用户可免费领 100 小时转写服务。

作业帮多云多活架构的探索和实践
作业帮从创立之初就 base 在云上,享受了云计算红利的同时,也慢慢遇到了单云架构的瓶颈。

WebTransport 开播的应用实践之路
WebTransport 是如何稳定传输高质量音视频的?