计算机视觉
关注计算机视觉技术发展趋势和一线技术实践

“Bug”还是“预演”?GitHub 突然“封禁”所有中国 IP,回应称只是技术问题......
开源可以是无国界的,但逃离不了政治制约的 GitHub,无法真正做到无国界。

实时通信的下一站,H.266 作为破局关键
实时通信(RTC)作为支撑实时音视频交互的核心技术,近十年来已深度渗透至视频会议、直播连麦、在线教育及远程协作等多个场景。

画质之外,直播编码还应当关注哪些技术优化点
随着直播行业用户基数趋于饱和,市场竞争已从早期的流量争夺转向精细质量比拼。等高阶指标转移。年直播技术趋势》显示,视频质量被广泛认为是直播平台用户体验的核心因素,直播行业正在转向更高分辨率和帧率;而在实时互动直播中,低延迟能显著提升观众参与度。

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型
Nexa AI 发布了专为边缘设备设计的视觉语言模型 Omnivision,图像 token 从 729 个减少至 81 个,降低了延迟和计算要求。该模型在视觉问答和图像字幕任务中表现优异,准确率分别达到 71.0% 和 93.3%。Omnivision 采用直接偏好优化(DPO),并计划未来支持光学字符识别(OCR)。

12 亿融资撑腰,国内这颗具身智能赛道最亮的新星凭什么抢占市场先机?
在产品的商业化探索方面,银河通用进展迅速。已经和美团、奔驰、极氪等行业内头部企业开展合作。

字节跳动冯佳时:大语言模型在计算机视觉领域的应用、问题和我们的解法
本次演讲将介绍字节跳动视觉基础研究团队在这个方向的探索与进展,包括 LLMs 在图像理解与视频生成上的阶段性结果。

ECCV 2024|有效提高盲视频去闪烁的新方法——BlazeBVD
有效提高盲视频去闪烁效果,美图公司 & 国科大提出基于 STE 新方法 BlazeBVD。

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距
box+animator

Sora 生成的视频太真实?那是你遇到造假了
谁在骗人?

和开发者关系临近冰点,苹果 Vision Pro 难破局
苹果股价一直在下跌,因为人们认为其增长的鼎盛时期已经过去,而 Vision Pro 不太可能改变这一点。

提高视频编辑一致性,美图、国科大联合提出基于文生图模型的新方法
解决现有方案遇到的语义和时序不一致问题。

哀悼 !中国 AI 领军人物、商汤科技创始人汤晓鸥去世
中国计算机视觉的“探路者”

计算机图形学将迎来新突破?Meta 携手斯坦福大学推出 3D 交互模型,VR 时代似乎不远了
CHOIS 是一套先进的人工智能系统,用于合成逼真的 3D 人机交互。

消费金融的数字化体系该如何构建?|FCon 直播「第四期」
李远鑫,探讨消费金融的数字化体系该如何构建?

字节跳动智能创作 CV 技术负责人吴兴龙,确认担任 QCon 北京视频与智能创作专题出品人
智能创作如何为视频生态的繁荣而赋能?

实战:超低延时直播技术的落地实践
火山引擎《超低延时直播技术演进之路》系列文章第二篇

用计算机视觉识别模型种生菜?“科技 + 农业”还能这么玩!
“计算机视觉识别模型”和“生菜”是怎么关联在一起的?

WebTransport 开播的应用实践之路
WebTransport 是如何稳定传输高质量音视频的?

Stability AI 发布开源版 DreamStudio,可使用最新 Stable Diffusion XL 图像生成器
制作 DreamStudio 的开源版本对 Stability AI 有很多好处。

veImageX 演进之路:iOS 高性能图片加载 SDK
本文主要介绍 iOS 客户端图片加载 SDK,包括图片网络加载、图像解码、图片基础处理与变换以及图片服务质量监控上报等能力。

火山引擎视频云“再升段位”:本次发布的新产品有点儿意思!
更高清,更互动,更沉浸

叫板 ChatGPT?Stability AI 开源语言大模型 StableLM,参数仅为 GPT-3 百分之四,却能实现超高性能
tableLM 模型能够生成文本和代码,并将为一系列下游应用程序提供支持。项目的意义,在于展示小规模高效模型如何通过适当训练提供出色的性能。

年薪高达 7 位数,甚至无需任何技术背景就能上手,AIGC 让这个岗位一夜爆火
AI 催生的新岗位正在兴起 —— 年薪高达六位数,而且无需计算机工程学位,甚至“精通编程”都不是必要条件。

自动驾驶生成式大模型 DriveGPT 来了:基于 4000 万公里量产车驾驶数据训练,参数规模 1200 亿
DriveGPT 雪湖·海若通过引入驾驶数据建立 RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化

通用视觉的 GPT 时刻来临?智源推出通用分割模型 SegGPT,可「分割一切 」
ChatGPT 引发了语言大模型狂潮,AI 另一个重大领域 — 视觉的 GPT 时刻何时到来?

腾讯提出蛋白质研究 AI 模型,预测准确率刷新纪录,入选 Nature 子刊
双视图层次图学习模型(HIGH-PPI),模型被证明在 PPI 研究中具有更高的预测准确性和更好的可解释性。

生成式 AI 助力游戏开发:腾讯推出 3D 虚拟场景自动生成解决方案
游戏场景中,AI 生成虚拟城市的核心技术主要包含城市布局生成、建筑外观生成、室内映射生成几个方面。

旷视的 6 年智慧物流梦
成立 12 年来,AIoT 一直是旷视核心的战略关键词。

刚刚!AI 赛道又跑出一个 IPO
据悉,云天励飞是业内少有的拥有横跨算法、芯片和大数据能力的人工智能企业。

AI 作画神器 Midjourney 停止免费试用:一段实操视频在中国爆火后,大量新用户涌入致服务瘫痪
一夜爆火后,Midjourney 遇到成长的烦恼。