写点什么

实时视频理解首次上端!面壁小钢炮 2.6 携单图、多图、视频理解 3 SOTA,全面对标 GPT-4V 最强多模态

  • 2024-08-07
    北京
  • 本文字数:3195 字

    阅读完需:约 10 分钟

大小:1.58M时长:09:13
实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态

8 月 6 日,面壁智能宣布「小钢炮」 MiniCPM-V 2.6 模型重磅上新!据悉,该模型仅 8B 参数,但将实时视频理解、多图联合理解(还包括多图 OCR、多图 ICL 等)能力首次搬上了端侧多模态模型。

 

据介绍,MiniCPM-V 2.6 延续了小钢炮系列一贯的以小博大与高效低成本特点:

 

  • “三合一”最强端侧多模态:首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini 。

  • 多项功能首次上端:实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图 OCR 等功能,第一次让端侧模型睁开观察、理解真实流动世界的「眼睛」,不仅看得清晰,还能有样学样、模仿学习。

  • 极致高效,最高多模态像素密度:类比知识密度,小钢炮 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度(token density),在端侧方寸之地,一路将大模型「能效比」挖到极限。这一进展,得益于视觉 token 相比上一代下降 30% ,比同类模型低 75%。

  • 端侧友好:量化后端侧内存仅占 6 GB;端侧推理速度高达 18 tokens/s,相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理;且支持多种语言。

  • 统一高清框架,高效能力一拖三:小钢炮的传统优势 OCR 能力延续了其 SOTA 性能水平,并进一步覆盖单图、多图、视频理解。

 


  • MiniCPM-V 2.6 开源地址:

 

  GitHub🔗 https://github.com/OpenBMB/MiniCPM-V

  HuggingFace: 🔗 https://huggingface.co/openbmb/MiniCPM-V-2_6


  • llama.cpp、ollama、vllm 部署教程地址:

https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

 

  • MiniCPM 系列开源地址:

 https://github.com/OpenBMB/MiniCPM

 

单图、多图、视频理解 3 SOTA

 

以小博大,是端侧模型的核心竞争力。在知识压缩率方面,MiniCPM-V 2.6 体现出极致的高效,取得了两倍于 GPT-4o 的最高多模态大模型像素密度(Token Density) 。

 

注:Token Density = 编码像素数量 / 视觉 token 数量,是指单个 token 承载的像素密度即图像信息密度,直接决定了多模态模型实际的运行效率,数值越大,模型运行效率越高。

 


面壁通过 API 收费方式估算得到闭源模型的 Token Density,结果表明 MiniCPM-V 2.6 是所有多模态模型中 Token Density 最高的。评测结果如下:

 

  • 单图方面:在综合评测权威平台 OpenCompass 上,单图理解能力超越多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini ;

  • 多图方面:在多图评测权威平台 Mantis-Eval 榜单上,MiniCPM-V 2.6 多图联合理解能力实现开源模型 SOTA ,且超越 GPT-4V;

  • 视频方面:在视频评测权威平台 Video-MME 榜单上,MiniCPM-V 2.6 的视频理解能力达到端侧 SOTA,超越 GPT-4V;

 

OpenCompass | Mantis-Eval | Video-MME






此外,在 OCRBench 上,MiniCPM-V 2.6 OCR 性能实现开源+闭源模型 SOTA,延续并加强了小钢炮系列最强端侧 OCR 能力的传统优势。

 

在幻觉评测榜单 Object HalBench 上,MiniCPM-V 2.6 的幻觉水平(幻觉率越低越好)优于 GPT-4o、GPT-4V、Claude 3.5 Sonnet 等众多商用模型;

 

榜单成绩

Obiect HalBench | OCRBench





实时视频理解,首次上端

 

据介绍,端侧视频理解具有天然优势,手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头,具有天然的多模态输入能力。相比云端,端侧视频理解离用户更近,链路更短、效率更高,同时具有更强的隐私安全优势。

 

MiniCPM-V 2.6 让实时视频理解功能第一次运行在端侧。在下面对面壁智能公司实时拍摄中,室内场景的各种办公设备、墙上、会议室上的文字都能轻松被模型精准识别。

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    此外,对于「太长不看」的视频,现在可以直接把文件拖进来,让模型为你总结重点信息,不用看完、不用倍速、也不用快进。

     

    天气预报讲解视频

     

    这段 1 分钟左右的天气预报视频,MiniCPM-V 2.6 能在没有听到任何语音的情况下,发挥强大的视频 OCR 功能,识别出视频画面里密集的文字,给出不同视频段落中不同城市的详细天气描述。

     

    注:该结果为代码环境中复现。


     

    多图联合理解,首次上端

     

    最新发布的 MiniCPM-V 2.6 首次将 多图联合理解、多图 ICL(上下文少样本学习 )功能集成在端侧模型,这也是此前业界多模态王者 GPT-4V 引以为傲的能力。

     

    就像人们习惯把多个文件拖拽给大模型处理,在日常生活和工作中,联合处理多张图像是高频刚需。比如常令人头疼的记账或报销难题,小票上密密麻麻的数字难以辨别,更别提进行繁琐的总账计算。拍照下来,一口气甩给 MiniCPM-V 2.6,除了一一找出每张小票的金额,最后还把总账计算出来,十分方便。

     

    强大的 OCR 能力+CoT (思维链)能力加持,不仅小票金额精准抓取,解题思路与卷面呈现都清晰简洁:


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      另外,面壁还刷新了端侧多模态复杂推理能力。

       

      比如在 GPT-4V 官方演示中的经典命题:调整自行车车座。这个对人很简单的问题对模型却非常困难,它非常考验多模态模型的复杂推理能力和对物理常识的掌握能力。MiniCPM-V 2.6 通过和模型进行多图多轮对话,清晰地告知完成调低自行车车座的每一个详细步骤,还能根据说明书和工具箱帮你找到合适的工具。



      得益于强大的多图复杂推理能力,MiniCPM-V 2.6 不仅能联合识别多张图片的表面信息,还能“读懂”梗图背后的槽点。

       

      比如让模型解释下面两张图背后的小故事,MiniCPM-V 2.6 能够通过 OCR 精准识别到两张图片上的文字:“WFH Employees 8:59 AM”和 “WFH Employees 9:00 AM”,推理出“WFH”居家办公状态,然后结合两张图片的视觉信息联合推理出“工作在家时,8:59 还在床上睡觉,9 点立马出现在视频会议上”的居家办公的“抓狂”状态,尽显梗图的槽点和幽默,可谓是多图联合理解和 OCR 能力的强强结合。

       




      多图 ICL,首次上“端”

       

      多图 ICL(In context learning)上下文少样本学习能激发出模型的潜力,让模型无需 fine-tune,即可快速适配到特定领域和任务,显著提高模型的输出稳定性。

       

      在下面的例子中,直接通过视觉 prompt 给大模型下指示:

       

      给出两组神转折画面,以及对画面中的「梗」给出示意文字描述,例如一个戴着手套、重视卫生的厨师,下一秒却用戴手套的手直接去拿实际有些肮脏的纸币;一个看似热衷环保的人,却把塑料瓶装水打开装进环保水壶……

       

      这时 MiniCPM-V 2.6 能够自动从前面两组图文关系,揣摩出题人的意图,并自动学会“答题模版”,给出神转折答案—— 一个人手握大量加密数字货币,可你猜怎么着,他出门购物,可是商店却竟然只收现金!

       




      统一高清视觉架构

      新一代小钢炮的最大亮点:单图、多图、视频理解等核心能力对 GPT-4V 的全面对标。据悉,在 Qwen2-7B 基座模型的性能加持之外,这次功能改进还要归功于采用了统一高清视觉架构。

       


      统一高清视觉框架,让传统单图的多模态优势功能得以继承,并实现了一通百通。例如,多管齐下的 OCR SOTA 能力 将 MiniCPM-V 单图场景的“180 万高清图像解析”进行能力迁移和知识共享,无缝拓展至多图场景和视频场景,并将这三种视觉理解场景统一形式化为图文交替的语义建模问题,共享底层视觉表示机制,实现相比同类型模型,视觉 token 数量节省超过 75% 。

       

      OCR 信息提取的基础上,MiniCPM-V 2.6 还能进一步对表格信息进行类似 CoT(思维链)的复杂推理。比如让模型计算 2008 年奥运会获得金牌数最多的 3 个国家一共获得了多少枚金牌,CoT 的过程是:

       

      1. 首先利用 OCR 能力识别并提取出奖牌榜中金牌数量的前三名国家;

      2. 再将前三名国家的金牌总数相加。

       


      8.2%的超低幻觉率,亦是发挥了小钢炮系列 AI 可信方面的传统优势。

       

      面壁 RLAIF-V 高效对齐技术对低幻觉贡献颇多,MiniCPM-V 2.6 的复杂推理能力和通用域多图联合理解能力亦因面壁 Ultra 对齐技术得到一并增强。

       

      在多模态复杂推理能力对齐方面,MiniCPM-V 2.6 通过复杂题目的 CoT 解答数据,构造高效对齐种子数据,并通过模型自迭代完成数据净化和知识学习。在多图联合理解方面,MiniCPM-V 2.6 从通用域自然网页中结合文本线索挖掘多图关联语义,实现多图联合理解数据的高效构造。

       

      2024-08-07 14:367983

      评论

      发布
      暂无评论
      发现更多内容

      【浪潮云说】直播间第十期将于今晚19:30准时开播

      云计算

      科技赋能乡村振兴,农林牧渔如何“拥抱”区块链技术?

      CECBC

      Serverless 工程实践 | 自建 Apache OpenWhisk 平台

      Serverless Devs

      Android平台如何使用RSA算法进行加解密?

      Changing Lin

      10月月更

      第六届世界智能大会平行论坛提前揭晓

      InfoQ 天津

      网易云信 6 周年|以梦为马,谱写融合通信新篇章

      网易云信

      云通信 通信云

      AISWare AntDB亚信科技数据库产品特性解读——平滑弹性扩展(一)

      亚信AntDB数据库

      亚信科技

      万圣节也是节,准备好Trick or Treat了么?

      气气

      话题讨论

      Python代码阅读(第47篇):从列表右边开始执行给定函数

      Felix

      Python 编程 Code Programing 阅读代码

      公关CRM软件助你培养长期客户关系

      低代码小观

      CRM 管理系统 管理工具 管理软件 公关

      OCR+NLP信息抽取在金融、物流行业的应用

      百度大脑

      人工智能 百度

      泛型原理解析(Review)

      Puciu

      泛型

      微信朋友圈的复杂度分析

      胡颖

      架构实战营

      虚拟人“觉醒”年,见证一场万物的进化

      脑极体

      永不落幕的世界智能盛会:天津市工业和信息化局与工商银行天津分行举行对接交流活动

      InfoQ 天津

      北森CEO纪伟国:深耕HR SaaS,聚焦场景一体化

      海比研究院

      少吃肉也能减碳排?

      脑极体

      linux之zgrep查找压缩包文件文本

      入门小站

      Linux

      如何成为一个更好的职业人?

      石云升

      学习笔记 职场经验 10月月更

      OCR+NLP 提取信息并分析,这个开源项目火了!

      百度开发者中心

      最佳实践 开源技术

      使用 Spring Boot 和 @DataJpaTest 测试 JPA 查询

      码语者

      Java Spring Boot test

      阿里大牛首次公布Java10W字八股文面经,Github访问量破百万

      Java 编程 程序员 架构 面试

      030云原生之交付部署

      穿过生命散发芬芳

      云原生 10月月更

      文本逆序翻转工具

      入门小站

      工具

      作业:模块一

      奔奔

      CODING 助力江苏高速信息实现组织敏捷与研发敏捷,领跑智慧交通新基建

      CODING DevOps

      研发敏捷 组织敏捷 自动化发布流程 团队目标一致性 楼宇智能化

      浅谈如何实现自定义的 iterator

      hedzr

      stl Iterator c++17

      中国央行数字货币DCEP——有增值空间吗?

      CECBC

      WorkPlus数字化办公解决方案,打造企业高效协同生态!

      BeeWorks

      PaddlePaddle:在 Serverless 架构上十几行代码实现 OCR 能力

      Serverless Devs

      Android 音视频 - MediaCodec 编解码音视频

      声网

      android 音视频 编解码

      实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态_AI&大模型_褚杏娟_InfoQ精选文章