

 写点什么

登录/注册

计算机视觉

 关注

收录了计算机视觉频道下的 347 篇内容
关注计算机视觉技术发展趋势和一线技术实践

打破确定性魔咒！北航团队提出VBF++：用“不确定性建模”刷新多模态视频推荐 SOTA

打破确定性魔咒！北航团队提出 VBF++：用“不确定性建模”刷新多模态视频推荐 SOTA

VBF++ 的核心思想是将多模态融合过程重新表述为一个变分推理问题，将融合范式从传统的“点估计”转变为更具鲁棒性的“分布建模”范式。

刘瑞

2025-12-23

3088

IBM 推出紧凑型视觉语言模型 Granite-Docling-258M，助力精准文档转换

IBM 推出紧凑型视觉语言模型 Granite-Docling-258M，助力精准文档转换

IBM Research 推出新的开源视觉语言模型 Granite-Docling-258M，旨在高保真地将文档转换为文本，同时保留复杂的布局、表格、公式和列表等元素。

作者：Robert Krzaczyński 译者: 明知山

2025-10-14

4027

腾讯混元3D 3.0亮相：36亿体素超高清建模，精度提升 3 倍

腾讯混元 3D 3.0 亮相：36 亿体素超高清建模，精度提升 3 倍

9 月 16 日，在 2025 腾讯全球数字生态大会上，腾讯发布全新混元 3D 3.0 生成模型。该模型建模精度提升 3 倍，几何分辨率高达 1536³，支持 36 亿体素超高清建模，细节表现力显著增强，为用户带来前所未有的 3D 内容创作体验。

作者 : 腾讯

2025-09-16

1670

“Bug”还是“预演”？GitHub突然“封禁”所有中国IP，回应称只是技术问题......

“Bug”还是“预演”？GitHub 突然“封禁”所有中国 IP，回应称只是技术问题......

开源可以是无国界的，但逃离不了政治制约的 GitHub，无法真正做到无国界。

作者 : 李冬梅

2025-04-14

9843

实时通信的下一站，H.266作为破局关键

实时通信的下一站，H.266 作为破局关键

实时通信（RTC）作为支撑实时音视频交互的核心技术，近十年来已深度渗透至视频会议、直播连麦、在线教育及远程协作等多个场景。

作者 : 火山引擎视频云策划: 雷雨亭

2025-03-26

5378

画质之外，直播编码还应当关注哪些技术优化点

画质之外，直播编码还应当关注哪些技术优化点

随着直播行业用户基数趋于饱和，市场竞争已从早期的流量争夺转向精细质量比拼。等高阶指标转移。年直播技术趋势》显示，视频质量被广泛认为是直播平台用户体验的核心因素，直播行业正在转向更高分辨率和帧率；而在实时互动直播中，低延迟能显著提升观众参与度。

作者 : 火山引擎视频云策划: 雷雨亭

2025-03-26

5816

Nexa AI 发布 Omnivision：一个面向边缘 AI 的紧凑型视觉语言模型

Nexa AI 发布 Omnivision：一个面向边缘 AI 的紧凑型视觉语言模型

Nexa AI 发布了专为边缘设备设计的视觉语言模型 Omnivision，图像 token 从 729 个减少至 81 个，降低了延迟和计算要求。该模型在视觉问答和图像字幕任务中表现优异，准确率分别达到 71.0% 和 93.3%。Omnivision 采用直接偏好优化（DPO），并计划未来支持光学字符识别（OCR）。

作者：Robert Krzaczyński 译者: 平川策划: Tina

2024-12-23

5026

12亿融资撑腰，国内这颗具身智能赛道最亮的新星凭什么抢占市场先机？

12 亿融资撑腰，国内这颗具身智能赛道最亮的新星凭什么抢占市场先机？

在产品的商业化探索方面，银河通用进展迅速。已经和美团、奔驰、极氪等行业内头部企业开展合作。

作者 : AICon 全球人工智能开发与应用大会策划: 罗燕珊

2024-11-21

10490

字节跳动冯佳时：大语言模型在计算机视觉领域的应用、问题和我们的解法

字节跳动冯佳时：大语言模型在计算机视觉领域的应用、问题和我们的解法

本次演讲将介绍字节跳动视觉基础研究团队在这个方向的探索与进展，包括 LLMs 在图像理解与视频生成上的阶段性结果。

冯佳时策划: 蔡芳芳AICon 全球人工智能开发与应用大会

2024-09-10

8528

ECCV 2024｜有效提高盲视频去闪烁的新方法——BlazeBVD

ECCV 2024｜有效提高盲视频去闪烁的新方法——BlazeBVD

有效提高盲视频去闪烁效果，美图公司 & 国科大提出基于 STE 新方法 BlazeBVD。

作者：美图影像实验室策划: 蔡芳芳

2024-07-22

7123

字节跳动辟谣推出中文版Sora：还无法完善产品落地，距离国外模型有很大差距

字节跳动辟谣推出中文版 Sora：还无法完善产品落地，距离国外模型有很大差距

box+animator

作者 : 褚杏娟

2024-02-20

7129

Sora生成的视频太真实？那是你遇到造假了

Sora 生成的视频太真实？那是你遇到造假了

谁在骗人？

作者 : 褚杏娟

2024-02-20

8079

和开发者关系临近冰点，苹果Vision Pro难破局

和开发者关系临近冰点，苹果 Vision Pro 难破局

苹果股价一直在下跌，因为人们认为其增长的鼎盛时期已经过去，而 Vision Pro 不太可能改变这一点。

作者 : 李冬梅核子可乐

2024-01-22

6597

提高视频编辑一致性，美图、国科大联合提出基于文生图模型的新方法

提高视频编辑一致性，美图、国科大联合提出基于文生图模型的新方法

解决现有方案遇到的语义和时序不一致问题。

作者 : 褚杏娟

2023-12-18

7377

哀悼！中国AI领军人物、商汤科技创始人汤晓鸥去世

哀悼！中国 AI 领军人物、商汤科技创始人汤晓鸥去世

中国计算机视觉的“探路者”

作者 : Tina

2023-12-16

7962

计算机图形学将迎来新突破？Meta携手斯坦福大学推出3D交互模型，VR时代似乎不远了

计算机图形学将迎来新突破？Meta 携手斯坦福大学推出 3D 交互模型，VR 时代似乎不远了

CHOIS 是一套先进的人工智能系统，用于合成逼真的 3D 人机交互。

作者 : 李冬梅核子可乐

2023-12-11

6720

消费金融的数字化体系该如何构建？｜FCon直播「第四期」



消费金融的数字化体系该如何构建？｜FCon 直播「第四期」

李远鑫，探讨消费金融的数字化体系该如何构建？

演讲人: 李远鑫

2023-10-24

2473

字节跳动智能创作 CV 技术负责人吴兴龙，确认担任QCon北京视频与智能创作专题出品人

字节跳动智能创作 CV 技术负责人吴兴龙，确认担任 QCon 北京视频与智能创作专题出品人

智能创作如何为视频生态的繁荣而赋能？

徐晓博

2023-08-01

6871

实战：超低延时直播技术的落地实践

实战：超低延时直播技术的落地实践

火山引擎《超低延时直播技术演进之路》系列文章第二篇

林可刘静策划: 鲁冬雪

2023-07-25

12869

用计算机视觉识别模型种生菜？“科技+农业”还能这么玩！

用计算机视觉识别模型种生菜？“科技 + 农业”还能这么玩！

“计算机视觉识别模型”和“生菜”是怎么关联在一起的？

作者 : 张俊宝

2023-07-07

8056

WebTransport 开播的应用实践之路

WebTransport 开播的应用实践之路

WebTransport 是如何稳定传输高质量音视频的？

火山引擎策划: 鲁冬雪

2023-05-24

14751

Stability AI 发布开源版 DreamStudio，可使用最新Stable Diffusion XL 图像生成器

Stability AI 发布开源版 DreamStudio，可使用最新 Stable Diffusion XL 图像生成器

制作 DreamStudio 的开源版本对 Stability AI 有很多好处。

作者 : 刘燕

2023-05-18

8915

veImageX 演进之路：iOS 高性能图片加载 SDK

veImageX 演进之路：iOS 高性能图片加载 SDK

本文主要介绍 iOS 客户端图片加载 SDK，包括图片网络加载、图像解码、图片基础处理与变换以及图片服务质量监控上报等能力。

字节跳动技术团队-周旋策划: 鲁冬雪

2023-04-26

9932

火山引擎视频云“再升段位”：本次发布的新产品有点儿意思！

火山引擎视频云“再升段位”：本次发布的新产品有点儿意思！

更高清，更互动，更沉浸

火山引擎策划: 鲁冬雪

2023-04-24

8916

叫板ChatGPT？Stability AI 开源语言大模型 StableLM，参数仅为GPT-3百分之四，却能实现超高性能

叫板 ChatGPT？Stability AI 开源语言大模型 StableLM，参数仅为 GPT-3 百分之四，却能实现超高性能

tableLM 模型能够生成文本和代码，并将为一系列下游应用程序提供支持。项目的意义，在于展示小规模高效模型如何通过适当训练提供出色的性能。

作者 : 刘燕

2023-04-21

7856

年薪高达7位数，甚至无需任何技术背景就能上手，AIGC让这个岗位一夜爆火

年薪高达 7 位数，甚至无需任何技术背景就能上手，AIGC 让这个岗位一夜爆火

AI 催生的新岗位正在兴起 —— 年薪高达六位数，而且无需计算机工程学位，甚至“精通编程”都不是必要条件。

作者 : 刘燕

2023-04-21

9623

自动驾驶生成式大模型DriveGPT来了：基于4000万公里量产车驾驶数据训练，参数规模1200亿

自动驾驶生成式大模型 DriveGPT 来了：基于 4000 万公里量产车驾驶数据训练，参数规模 1200 亿

DriveGPT 雪湖·海若通过引入驾驶数据建立 RLHF（人类反馈强化学习）技术，对自动驾驶认知决策模型进行持续优化

作者 : 刘燕

2023-04-12

7555

通用视觉的GPT时刻来临？智源推出通用分割模型SegGPT，可「分割一切」

通用视觉的 GPT 时刻来临？智源推出通用分割模型 SegGPT，可「分割一切」

ChatGPT 引发了语言大模型狂潮，AI 另一个重大领域 — 视觉的 GPT 时刻何时到来？

作者 : 刘燕

2023-04-09

8227

腾讯提出蛋白质研究AI模型，预测准确率刷新纪录，入选Nature子刊

腾讯提出蛋白质研究 AI 模型，预测准确率刷新纪录，入选 Nature 子刊

双视图层次图学习模型（HIGH-PPI），模型被证明在 PPI 研究中具有更高的预测准确性和更好的可解释性。

作者 : 刘燕

2023-04-06

8292

生成式AI助力游戏开发：腾讯推出3D虚拟场景自动生成解决方案

生成式 AI 助力游戏开发：腾讯推出 3D 虚拟场景自动生成解决方案

游戏场景中，AI 生成虚拟城市的核心技术主要包含城市布局生成、建筑外观生成、室内映射生成几个方面。

作者 : 刘燕

2023-04-06

9763