写点什么

实时视频理解首次上端!面壁小钢炮 2.6 携单图、多图、视频理解 3 SOTA,全面对标 GPT-4V 最强多模态

  • 2024-08-07
    北京
  • 本文字数:3195 字

    阅读完需:约 10 分钟

大小:1.58M时长:09:13
实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态

8 月 6 日,面壁智能宣布「小钢炮」 MiniCPM-V 2.6 模型重磅上新!据悉,该模型仅 8B 参数,但将实时视频理解、多图联合理解(还包括多图 OCR、多图 ICL 等)能力首次搬上了端侧多模态模型。

 

据介绍,MiniCPM-V 2.6 延续了小钢炮系列一贯的以小博大与高效低成本特点:

 

  • “三合一”最强端侧多模态:首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini 。

  • 多项功能首次上端:实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图 OCR 等功能,第一次让端侧模型睁开观察、理解真实流动世界的「眼睛」,不仅看得清晰,还能有样学样、模仿学习。

  • 极致高效,最高多模态像素密度:类比知识密度,小钢炮 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度(token density),在端侧方寸之地,一路将大模型「能效比」挖到极限。这一进展,得益于视觉 token 相比上一代下降 30% ,比同类模型低 75%。

  • 端侧友好:量化后端侧内存仅占 6 GB;端侧推理速度高达 18 tokens/s,相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理;且支持多种语言。

  • 统一高清框架,高效能力一拖三:小钢炮的传统优势 OCR 能力延续了其 SOTA 性能水平,并进一步覆盖单图、多图、视频理解。

 


  • MiniCPM-V 2.6 开源地址:

 

  GitHub🔗 https://github.com/OpenBMB/MiniCPM-V

  HuggingFace: 🔗 https://huggingface.co/openbmb/MiniCPM-V-2_6


  • llama.cpp、ollama、vllm 部署教程地址:

https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

 

  • MiniCPM 系列开源地址:

 https://github.com/OpenBMB/MiniCPM

 

单图、多图、视频理解 3 SOTA

 

以小博大,是端侧模型的核心竞争力。在知识压缩率方面,MiniCPM-V 2.6 体现出极致的高效,取得了两倍于 GPT-4o 的最高多模态大模型像素密度(Token Density) 。

 

注:Token Density = 编码像素数量 / 视觉 token 数量,是指单个 token 承载的像素密度即图像信息密度,直接决定了多模态模型实际的运行效率,数值越大,模型运行效率越高。

 


面壁通过 API 收费方式估算得到闭源模型的 Token Density,结果表明 MiniCPM-V 2.6 是所有多模态模型中 Token Density 最高的。评测结果如下:

 

  • 单图方面:在综合评测权威平台 OpenCompass 上,单图理解能力超越多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini ;

  • 多图方面:在多图评测权威平台 Mantis-Eval 榜单上,MiniCPM-V 2.6 多图联合理解能力实现开源模型 SOTA ,且超越 GPT-4V;

  • 视频方面:在视频评测权威平台 Video-MME 榜单上,MiniCPM-V 2.6 的视频理解能力达到端侧 SOTA,超越 GPT-4V;

 

OpenCompass | Mantis-Eval | Video-MME






此外,在 OCRBench 上,MiniCPM-V 2.6 OCR 性能实现开源+闭源模型 SOTA,延续并加强了小钢炮系列最强端侧 OCR 能力的传统优势。

 

在幻觉评测榜单 Object HalBench 上,MiniCPM-V 2.6 的幻觉水平(幻觉率越低越好)优于 GPT-4o、GPT-4V、Claude 3.5 Sonnet 等众多商用模型;

 

榜单成绩

Obiect HalBench | OCRBench





实时视频理解,首次上端

 

据介绍,端侧视频理解具有天然优势,手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头,具有天然的多模态输入能力。相比云端,端侧视频理解离用户更近,链路更短、效率更高,同时具有更强的隐私安全优势。

 

MiniCPM-V 2.6 让实时视频理解功能第一次运行在端侧。在下面对面壁智能公司实时拍摄中,室内场景的各种办公设备、墙上、会议室上的文字都能轻松被模型精准识别。

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    此外,对于「太长不看」的视频,现在可以直接把文件拖进来,让模型为你总结重点信息,不用看完、不用倍速、也不用快进。

     

    天气预报讲解视频

     

    这段 1 分钟左右的天气预报视频,MiniCPM-V 2.6 能在没有听到任何语音的情况下,发挥强大的视频 OCR 功能,识别出视频画面里密集的文字,给出不同视频段落中不同城市的详细天气描述。

     

    注:该结果为代码环境中复现。


     

    多图联合理解,首次上端

     

    最新发布的 MiniCPM-V 2.6 首次将 多图联合理解、多图 ICL(上下文少样本学习 )功能集成在端侧模型,这也是此前业界多模态王者 GPT-4V 引以为傲的能力。

     

    就像人们习惯把多个文件拖拽给大模型处理,在日常生活和工作中,联合处理多张图像是高频刚需。比如常令人头疼的记账或报销难题,小票上密密麻麻的数字难以辨别,更别提进行繁琐的总账计算。拍照下来,一口气甩给 MiniCPM-V 2.6,除了一一找出每张小票的金额,最后还把总账计算出来,十分方便。

     

    强大的 OCR 能力+CoT (思维链)能力加持,不仅小票金额精准抓取,解题思路与卷面呈现都清晰简洁:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      另外,面壁还刷新了端侧多模态复杂推理能力。

       

      比如在 GPT-4V 官方演示中的经典命题:调整自行车车座。这个对人很简单的问题对模型却非常困难,它非常考验多模态模型的复杂推理能力和对物理常识的掌握能力。MiniCPM-V 2.6 通过和模型进行多图多轮对话,清晰地告知完成调低自行车车座的每一个详细步骤,还能根据说明书和工具箱帮你找到合适的工具。



      得益于强大的多图复杂推理能力,MiniCPM-V 2.6 不仅能联合识别多张图片的表面信息,还能“读懂”梗图背后的槽点。

       

      比如让模型解释下面两张图背后的小故事,MiniCPM-V 2.6 能够通过 OCR 精准识别到两张图片上的文字:“WFH Employees 8:59 AM”和 “WFH Employees 9:00 AM”,推理出“WFH”居家办公状态,然后结合两张图片的视觉信息联合推理出“工作在家时,8:59 还在床上睡觉,9 点立马出现在视频会议上”的居家办公的“抓狂”状态,尽显梗图的槽点和幽默,可谓是多图联合理解和 OCR 能力的强强结合。

       




      多图 ICL,首次上“端”

       

      多图 ICL(In context learning)上下文少样本学习能激发出模型的潜力,让模型无需 fine-tune,即可快速适配到特定领域和任务,显著提高模型的输出稳定性。

       

      在下面的例子中,直接通过视觉 prompt 给大模型下指示:

       

      给出两组神转折画面,以及对画面中的「梗」给出示意文字描述,例如一个戴着手套、重视卫生的厨师,下一秒却用戴手套的手直接去拿实际有些肮脏的纸币;一个看似热衷环保的人,却把塑料瓶装水打开装进环保水壶……

       

      这时 MiniCPM-V 2.6 能够自动从前面两组图文关系,揣摩出题人的意图,并自动学会“答题模版”,给出神转折答案—— 一个人手握大量加密数字货币,可你猜怎么着,他出门购物,可是商店却竟然只收现金!

       




      统一高清视觉架构

      新一代小钢炮的最大亮点:单图、多图、视频理解等核心能力对 GPT-4V 的全面对标。据悉,在 Qwen2-7B 基座模型的性能加持之外,这次功能改进还要归功于采用了统一高清视觉架构。

       


      统一高清视觉框架,让传统单图的多模态优势功能得以继承,并实现了一通百通。例如,多管齐下的 OCR SOTA 能力 将 MiniCPM-V 单图场景的“180 万高清图像解析”进行能力迁移和知识共享,无缝拓展至多图场景和视频场景,并将这三种视觉理解场景统一形式化为图文交替的语义建模问题,共享底层视觉表示机制,实现相比同类型模型,视觉 token 数量节省超过 75% 。

       

      OCR 信息提取的基础上,MiniCPM-V 2.6 还能进一步对表格信息进行类似 CoT(思维链)的复杂推理。比如让模型计算 2008 年奥运会获得金牌数最多的 3 个国家一共获得了多少枚金牌,CoT 的过程是:

       

      1. 首先利用 OCR 能力识别并提取出奖牌榜中金牌数量的前三名国家;

      2. 再将前三名国家的金牌总数相加。

       


      8.2%的超低幻觉率,亦是发挥了小钢炮系列 AI 可信方面的传统优势。

       

      面壁 RLAIF-V 高效对齐技术对低幻觉贡献颇多,MiniCPM-V 2.6 的复杂推理能力和通用域多图联合理解能力亦因面壁 Ultra 对齐技术得到一并增强。

       

      在多模态复杂推理能力对齐方面,MiniCPM-V 2.6 通过复杂题目的 CoT 解答数据,构造高效对齐种子数据,并通过模型自迭代完成数据净化和知识学习。在多图联合理解方面,MiniCPM-V 2.6 从通用域自然网页中结合文本线索挖掘多图关联语义,实现多图联合理解数据的高效构造。

       

      2024-08-07 14:368134

      评论

      发布
      暂无评论
      发现更多内容

      mongodb内核源码实现、性能调优、最佳运维实践系列-百万级高并发mongodb集群性能数十倍提升优化实践(上篇)

      杨亚洲(专注MongoDB及高性能中间件)

      MySQL 数据库 nosql mongodb 分布式数据库mongodb

      成为一名合格的技术类产品经理

      小清新同学

      产品经理

      阿里P8大牛呕心沥血总结整理的《Java面经手册》,通过实践的方式向你深度讲解Java核心知识点

      Java架构之路

      Java 程序员 架构 面试 编程语言

      日常工作问题集锦

      hasWhere

      程序员的美丽假期(并不)

      Philips

      敏捷开发 快速开发

      Linux下diff的操作详解

      良知犹存

      Linux

      jvm笔记

      pCat

      Java JVM

      几行代码轻松实现跨系统传递 traceId,再也不用担心对不上日志了!

      程序员小航

      Java 日志 链路追踪 工作笔记 traceId

      成为 Apache 贡献者,So easy!

      代立冬

      Apache 贡献

      让黑产无处遁形 京东智联云推出风险识别服务

      京东科技开发者

      人工智能 学习 风险识别

      Github惊现高星神作,两份算法宝典让你横扫大厂算法面试题

      编程 程序员 算法 计算机

      你听过CatBoost吗?本文教你如何使用CatBoost进行快速梯度提升

      计算机与AI

      Python 学习 优化

      第四周作业

      熊桂平

      极客大学架构师训练营

      从理论到工具:带你全面了解自动化测试框架

      禅道项目管理

      开源 DevOps 工具 自动化测试

      台湾地区为什么会丢包高?

      德胜网络-阳

      第四周学习心得

      熊桂平

      极客大学架构师训练营

      LeetCode题解:98. 验证二叉搜索树,递归,JavaScript,详细注释

      Lee Chen

      大前端 LeetCode

      深入理解 JVM 垃圾回收算法 - 复制算法

      Java架构师迁哥

      面试大厂被面试官用MyBatis怼到“哑口无言”?这份MyBatis源码笔记助你吊打面试官!

      Java架构之路

      Java 程序员 架构 面试 编程语言

      出炉!华为18A自爆SpringCloud微服务分布式笔记

      996小迁

      Java 编程 架构 面试 SpringCloud

      java安全编码指南之:Thread API调用规则

      程序那些事

      Java并发 多线程 java安全编码 java安全编码指南 java编码规范

      想要高效搭建企业信息平台?教你轻松选择开发框架!

      Marilyn

      敏捷开发 快速开发

      直播预告 | 云时代的数据库客户端——CloudQuery最佳实践

      BinTools图尔兹

      数据库 sql 安全 工具软件

      SpringBoot有多重要?面试用SpringBoot把面试官唬住了要30k都行!

      Java架构之路

      Java 程序员 架构 面试 编程语言

      灯下黑中的自己

      非著名程序员

      个人成长 管理 管理者

      华为鲲鹏专家解读:90%代码如何移植到鲲鹏平台

      华为云开发者联盟

      软件 鲲鹏

      华为云数据安全中心正式公测,8大核心数据安全能力守护你的数据

      华为云开发者联盟

      华为 安全 数据

      详细分析定制企业应用的价格

      Learun

      敏捷开发 快速开发 软件架构

      Go发起HTTP2.0请求流程分析(中篇)——数据帧&流控制

      Gopher指北

      后端 HTTP2.0 Go 语言

      mongodb 源码实现、调优、最佳实践系列-百万级高并发mongodb集群性能数十倍提升优化实践(下篇)

      杨亚洲(专注MongoDB及高性能中间件)

      MySQL nosql mongodb 架构 分布式 分布式数据库mongodb

      Week 4 命题作业及总结

      阿泰

      实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态_AI&大模型_褚杏娟_InfoQ精选文章