写点什么

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型

作者:Robert Krzaczyński

  • 2024-12-23
    北京
  • 本文字数:969 字

    阅读完需:约 3 分钟

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型

Nexa AI 发布 了专为边缘设备定制的紧凑型视觉语言模型 Omnivision。它将图像 token 从 729 个大幅减少到了 81 个,降低了延迟和计算要求,并且在视觉问答和图像字幕等任务中保持了强劲的性能。该模型的架构集成了语言中枢 Qwen-2.5-0.5B、SigLIP-400M 视觉编码器和经过优化的投影层,以确保可以无缝地处理多模态输入。


Omnivision 的架构专为高效的多模态处理而设计,具有三个核心组件。Qwen-2.5-0.5B 模型是处理文本输入的基础,而 SigLIP-400M 视觉编码器则从输入图像生成图像嵌入。该编码器的分辨率为 384,块大小为 14×14,优化了视觉数据提取。然后,投影层使用多层感知器(MLP)将图像嵌入与语言模型的 token 空间对齐,从而简化了视觉语言集成。


图片来源:Nexa AI 博客


Omnivision 的其中一项关键创新是将图像 token 减少了 9 倍,这样可以在不影响准确性的情况下降低处理要求。例如,Omnivision 可以在 MacBook M4 Pro 上用不到两秒的时间为高分辨率图像生成标题,所需的 RAM 不到 1GB。为了确保准确性和可靠性,它采用了直接偏好优化 (DPO),利用高质量数据集最大限度地减少幻觉,提高预测的可信度。


该模型的训练管道分为三个不同的阶段。预训练阶段主要是对齐视觉和文本输入,以建立基础能力。随后是监督微调,以增强模型解释上下文和生成相关响应的能力。最后,直接偏好优化 (DPO)通过最大限度地减少不准确性和提高特定上下文输出的精确度来完善决策。


在基于 ScienceQA、MM-VET 和 POPE 等数据集的基准测试中,Omnivision 的性能优于其前身 nanoLLAVA。它取得了显著的进步,包括在 ScienceQA 测试数据上达到 71.0% 的准确率,在 POPE 基准测试中达到 93.3% 的准确率。这些证明了它在复杂推理任务中的可靠性。


图片来源:Nexa AI 博客


目前,Omnivision 专注于视觉问答和图像字幕。不过,据 Nexa AI 透露,他们计划扩展该模型的功能,以支持光学字符识别(OCR)。在最近的一次 Reddit 讨论中,AzLy 分享道:


目前,OCR 并不是该模型的预期用途之一。它主要用于视觉问答和图像字幕。不过,支持更好的 OCR 是我们的下一步工作。Omnivision 是一个开源框架,支持多种多模式任务,可以使用 Nexa-SDK 进行本地部署。该模型仍处于早期开发阶段,团队正在积极收集用户反馈,用于指导未来的改进工作。


查看原文链接

https://www.infoq.com/news/2024/12/nexa-ai-unveils-omnivision/

2024-12-23 08:051

评论

发布
暂无评论

Programming Abstractions in C阅读笔记:p306-p307

codists

穿越时空的软件架构之旅:软件架构设计演化史推演

灸哥漫谈

软件架构 架构师 软件架构设计 软件架构师

如何制定团队年度规划

老张

团队管理 项目管理

容器镜像服务:云原生时代的核心基石

天翼云开发者社区

云计算 容器服务

技术实践|百度安全「大模型内容安全」高级攻击风险评测

百度安全

网络空间测绘在安全领域的应用(上)

郑州埃文科技

网络空间测绘技术

已解决org.springframework.web.HttpSessionRequiredException缺少必需的会话属性异常的正确解决方法,亲测有效!!!

小明Java问道之路

ai作画软件有哪些?推荐这8个AI生成图片工具!

彭宏豪95

人工智能 在线白板 AIGC AI绘画 AI作画

百度财报告诉你:2024想赚钱,搞大模型

脑极体

AI

深度解析:Allure报告如何提升你的测试效率?

测吧(北京)科技有限公司

测试

云数据库常见问题与解决方案:从开发工程师的角度看

天翼云开发者社区

云计算 云数据库

字节被曝秘密研发多个 AI 产品;库克:苹果将「开辟 AI 新天地」丨 RTE 开发者日报 Vol.154

声网

MWC 2024丨中国电信柯瑞文:建设云网融合的新型数字基础设施

天翼云开发者社区

云计算 互联网大会 算力网络 世界移动通信大会

2024最新Java面试八股汇总(含答案,收藏版)

架构师之道

编程 程序员 java面试

《植物大战僵尸2》宣布启动鸿蒙原生应用开发,又一国民级IP游戏加入鸿蒙

最新动态

TCL实业登陆MWC 2024:多款移动智能终端产品亮相,擘画移动智能生活新蓝图

Geek_2d6073

如何使用Sora生成视频 开源Sora 视频生成工具SoraFlows

康哥聊AI

人工智能 开源软件 sora 视频生成

淘宝用户购物行为分析

Databend

开营通知 | ​行业专家+名校教授强强联合,带你快速掌握人工智能测试开发技术,提升你的竞争力

测吧(北京)科技有限公司

测试

SD-WAN架构比MPLS更具哪些优势

Geek一起出海

人形机器人真的有规模可观的商用场景和消费需求吗?

算法的秘密

企业数字化转型的第一步:由被动多云向主动多云转变

品高云计算

戴着 Vision Pro 录完这期节目,才明白“生活”才是 Killer App|编码人声

声网

Java 继承与多态:代码重用与灵活性的巧妙结合

小万哥

Java 程序人生 编程语言 软件工程 后端开发

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型_计算机视觉_InfoQ精选文章