写点什么

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型

作者:Robert Krzaczyński

  • 2024-12-23
    北京
  • 本文字数:969 字

    阅读完需:约 3 分钟

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型

Nexa AI 发布 了专为边缘设备定制的紧凑型视觉语言模型 Omnivision。它将图像 token 从 729 个大幅减少到了 81 个,降低了延迟和计算要求,并且在视觉问答和图像字幕等任务中保持了强劲的性能。该模型的架构集成了语言中枢 Qwen-2.5-0.5B、SigLIP-400M 视觉编码器和经过优化的投影层,以确保可以无缝地处理多模态输入。


Omnivision 的架构专为高效的多模态处理而设计,具有三个核心组件。Qwen-2.5-0.5B 模型是处理文本输入的基础,而 SigLIP-400M 视觉编码器则从输入图像生成图像嵌入。该编码器的分辨率为 384,块大小为 14×14,优化了视觉数据提取。然后,投影层使用多层感知器(MLP)将图像嵌入与语言模型的 token 空间对齐,从而简化了视觉语言集成。


图片来源:Nexa AI 博客


Omnivision 的其中一项关键创新是将图像 token 减少了 9 倍,这样可以在不影响准确性的情况下降低处理要求。例如,Omnivision 可以在 MacBook M4 Pro 上用不到两秒的时间为高分辨率图像生成标题,所需的 RAM 不到 1GB。为了确保准确性和可靠性,它采用了直接偏好优化 (DPO),利用高质量数据集最大限度地减少幻觉,提高预测的可信度。


该模型的训练管道分为三个不同的阶段。预训练阶段主要是对齐视觉和文本输入,以建立基础能力。随后是监督微调,以增强模型解释上下文和生成相关响应的能力。最后,直接偏好优化 (DPO)通过最大限度地减少不准确性和提高特定上下文输出的精确度来完善决策。


在基于 ScienceQA、MM-VET 和 POPE 等数据集的基准测试中,Omnivision 的性能优于其前身 nanoLLAVA。它取得了显著的进步,包括在 ScienceQA 测试数据上达到 71.0% 的准确率,在 POPE 基准测试中达到 93.3% 的准确率。这些证明了它在复杂推理任务中的可靠性。


图片来源:Nexa AI 博客


目前,Omnivision 专注于视觉问答和图像字幕。不过,据 Nexa AI 透露,他们计划扩展该模型的功能,以支持光学字符识别(OCR)。在最近的一次 Reddit 讨论中,AzLy 分享道:


目前,OCR 并不是该模型的预期用途之一。它主要用于视觉问答和图像字幕。不过,支持更好的 OCR 是我们的下一步工作。Omnivision 是一个开源框架,支持多种多模式任务,可以使用 Nexa-SDK 进行本地部署。该模型仍处于早期开发阶段,团队正在积极收集用户反馈,用于指导未来的改进工作。


查看原文链接

https://www.infoq.com/news/2024/12/nexa-ai-unveils-omnivision/

2024-12-23 08:054429

评论

发布
暂无评论

从零开始分析InstantRun源码,kotlin实现接口

android 程序员 移动开发

从零开始学数据结构和算法 (五) 分治法 (二分查找、快速排序、归并排序)

android 程序员 移动开发

作为一名面试者你应该知道的【上-带大厂面试题】,android组件化开发与sdk

android 程序员 移动开发

质量基础设施一站式服务平台,NQI云服务平台搭建

电微13828808271

作为一名Android开发者,你有过迷茫吗?,面经解析

android 程序员 移动开发

你告诉我太卡了,那是你不晓得性能优化之app卡顿优化,销售应届毕业生的面试题

android 程序员 移动开发

作为一名Android面试官,这些面试官常问的开发面试题你都掌握好了吗?(1)

android 程序员 移动开发

作为一名Android面试官,这些面试官常问的开发面试题你都掌握好了吗?

android 程序员 移动开发

你知道App为什么会Crash吗?,Android性能优化之APK优化

android 程序员 移动开发

你确定自己学会了自定义MarqueeView?这个你会吗?进来看看吧

android 程序员 移动开发

使用 Flutter 快速实现聊天应用,计算机移动应用开发

android 程序员 移动开发

使用更为安全的方式收集 Android UI 数据流,深入浅出Android

android 程序员 移动开发

使用Google开源库AutoService进行组件化开发,移动应用开发课程设计心得

android 程序员 移动开发

做了6年Android开发,你会的还只有初级工程师的技术吗?

android 程序员 移动开发

从零开始分析InstantRun源码(1),最新精心整理Android面试题

android 程序员 移动开发

从零开始学数据结构和算法-(五)-分治法-(二分查找、快速排序、归并排序)

android 程序员 移动开发

从面试无人问津到手拿百度offer,还原一段野生程序员的成长经历

android 程序员 移动开发

仿微信视频通话大小视图切换(SurfaceView实现),面试官6个灵魂拷问

android 程序员 移动开发

我以为对jvm性能调优很了解,直到我到阿里面试完之后

Java 程序员 JVM

作为面试官,如何考察工程师的软素质,Android开发经典实战

android 程序员 移动开发

使用 Kotlin API 实践 WorkManager,看完豁然开朗

android 程序员 移动开发

做个酷炫的“锤子” 开关效果,kotlinwindows桌面开发

android 程序员 移动开发

作为程序员的我们应该如何在当今国内的信息产业生存?,万字解析

android 程序员 移动开发

做android开发一直不相信35岁危机,好像被自己遇到了,9次Android面试经验总结

android 程序员 移动开发

全网唯一一份,从入门到精通的Android进阶学习笔记整理,Android应用层

android 程序员 移动开发

使用C#创建,查看,2021大厂Android面试题精选

android 程序员 移动开发

【设计模式】第八篇 - 原型模式 - DOTA-幻影长矛手

Brave

设计模式 原型设计 11月日更

任性!我开发了一款自己用的天气预报app,android双击事件响应

android 程序员 移动开发

作为Android开发者,你真的知道Android按下开机键到启动发生什么吗?

android 程序员 移动开发

演进实录|不同阶段的企业如何搭建监控体系?

阿里巴巴云原生

阿里云 Kubernetes 容器 云原生 监控工具

做了三年Android,公司发不出工资了,怎么办,阿里、腾讯大厂Android面试必问知识点系统梳理

android 程序员 移动开发

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型_计算机视觉_InfoQ精选文章