写点什么

面壁智能发布最强端侧多模态模型:超越 Gemini Pro 、GPT-4V,图像编码快 150 倍!

  • 2024-05-21
    北京
  • 本文字数:1652 字

    阅读完需:约 5 分钟

大小:833.99K时长:04:44
面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!

5 月 20 日,面壁智能小钢炮 MiniCPM 系列推出端侧多模态模型 MiniCPM-Llama3-V 2.5 并开源。据悉,该模型且支持 30+ 多种语言,并且具有以下特性:

 

  • 最强端侧多模态综合性能:超越多模态巨无霸 Gemini Pro 、GPT-4V;

  • OCR 能力 SOTA!9 倍像素更清晰,难图长图长文本精准识别;

  • 图像编码快 150 倍!首次端侧系统级多模态加速。

 

MiniCPM-Llama3-V 2.5 开源地址:

https://github.com/OpenBMB/MiniCPM-V

 

 MiniCPM 系列开源地址:

 https://github.com/OpenBMB/MiniCPM

 

Hugging Face 下载地址:

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

 

8 B 端侧模型,超越 GPT-4V、Gemini Pro

 

MiniCPM-Llama3-V 2.5 以 8B 端侧模型参数量级,贡献了惊艳的  OCR(光学字符识别)SOTA 成绩,以及端侧模型中的最佳多模态综合成绩与幻觉能力水平。



模型雷达图

 

在综合评测权威平台 OpenCompass 上,MiniCPM-Llama3-V 2.5 以小博大,综合性能超越多模态“巨无霸” GPT-4V 和 Gemini Pro。

 

OCR(光学字符识别)是多模态大模型最重要的能力之一,也是考察多模态识别与推理能力的硬核指标。新一代 MiniCPM-Llama3-V 2.5  在 OCR 综合能⼒权威榜单 OCRBench 上,越级超越了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等标杆模型,实现了性能 SOTA。

 

在评估多模态大模型性能可靠性的重要指标——幻觉能力上,MiniCPM-Llama3-V 2.5 在 Object HalBench 榜单上超越了 GPT-4V 等众多模型(注:目标幻觉率应为 0)。

 

在旨在评估多模态模型的基本现实世界空间理解能力的 RealWorldQA 榜单上,MiniCPM-Llama3-V 2.5 再次超越 GPT-4V 和 Gemini Pro,这对 8B 模型而言难能可贵。

 


榜单成绩:OpenCompass | OCRBench | Object HalBench | RealWorldQA

 

快 150 倍!首次端侧系统级多模态加速

 

面壁智能首次进行端侧系统加速,MiniCPM-Llama3-V 2.5 目前已可以高效部署在手机端。

 

在图像编码方面,面壁首次整合 NPU 和 CPU 加速框架,并结合显存管理、编译优化技术,在 MiniCPM-Llama3-V 2.5 图像编码方面实现了 150 倍加速提升。

 

在语言模型推理方面,目前开源社区的报告结果中,Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下,相比之下,多模态大模型的端侧运行面临着更大的效率挑战,经过 CPU、编译优化、显存管理等优化方式,将 MiniCPM-Llama3-V 2.5 在手机端的语言解码速度提升到 3-4 token/s。

 

有别于常见的中英双语模型,MiniCPM-Llama3-V2.5 可支持 30+ 多种语言,包括德语、法语、西班牙语、意大利语、俄语等主流语言,基本覆盖一带一路国家。

 

基于自研的跨语言泛化技术,仅通过少量翻译的多模态数据的指令微调,就可对多语言多模态对话性能高效泛化。

多语言版本 LLaVABench 评测结果

9 倍像素更清晰,难图长图长文本精准识别

 

OCR 技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V 2.5 对于难图、长图、长文本的精准识别,再度带来出众表现。

 

面壁自研了高清图像高效编码技术,可以高效编码及无损识别 180 万高清像素图片,并且支持任意长宽比,包括 1:9 极限比例,突破了传统技术仅能识别 20 万像素小图的瓶颈。

 

另外,MiniCPM-Llama3-V 2.5 在复杂推理能力上进一步突破:可更好地深入洞察图像,在更复杂、更接近人类的水平上进行思考和解决问题。该模型不仅能理解单一文本或图像等模态信息,还能跨越不同模态间的综合信息,做出更准确和深入的分析。

 

比如,给定一张充满繁密字迹的建筑风景图,人眼难以辨别,但 MiniCPM-Llama3-V 2.5 能够一眼看懂其中的《三体》主题,还能正确推理出这些建筑是为了纪念《三体》及其对中国科幻文学的贡献而设计:




把同样的问题抛给 GPT-4 V ,结果并不理想:



另外,识别包含复杂逻辑的流程图是多模态模型推理能力的直观体现,MiniCPM-Llama3-V 2.5 不仅能够看懂流程图中不同模块的文字、箭头之间的空间位置和复杂逻辑关系,还能给出清晰易懂的解释说明:

 



全文 OCR 能力方面,输入一张手机拍摄的火车票,MiniCPM-Llama3-V 2.5 也能准确提取信息,给出无误的"json"格式输出:

 


2024-05-21 14:216343

评论 1 条评论

发布
用户头像
看来是三体迷
2024-05-22 08:10 · 浙江
回复
没有更多了

LED透明屏为什么能透明?

Dylan

AR vr 虚拟 LED显示屏 led显示屏厂家

图形处理工具:Photoshop Elements mac中文直装版下载

mac

windows 苹果mac Photoshop Elements 图形处理工具

文心一言 VS 讯飞星火 VS chatgpt (100)-- 算法导论9.3 6题

福大大架构师每日一题

福大大架构师每日一题

低代码引擎 TinyEngine 正式发布!

Kagol

开源 前端 低代码

GPT 被曝重大缺陷;腾讯侦破国内首个 AI 游戏外挂;特斯拉人形机器人再进化丨 RTE 开发者日报 Vol.56

声网

国产化运维安全审计系统哪家好?支持信创吗?有哪些功能?

行云管家

国产化 安全运维 运维审计 国产化平台

【有奖体验】轻点鼠标,让古籍数字化“重生"

Serverless Devs

Serverless 云原生 托管 AIGC

高级编程计算工具MATLAB R2023a激活中文版附密钥

胖墩儿不胖y

Mac软件 数学计算工具

噢耶!字节后端Offer,拿到了!

王中阳Go

Go 面试题 面经 校招 大厂面经

华为云HBase冷热分离最佳实践

华为云开发者联盟

大数据 后端 华为云 华为云开发者联盟 企业号9月PK榜

GPU应用:从计算机图形学到人工智能

青椒云云电脑

人工智能 gpu AI绘画

艺术与区块链的融合—NFT开发的创意之旅

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 链游开发 NFT开发

【PPT下载】杭州 Atlassian 社区四周年活动

跟YY哥学Jira

Jira ACE #研发效能 Atlassiam Jira Service Management

支持国产基础硬件的云管平台哪家好?为什么?有哪些功能?

行云管家

云计算 云安全 云管平台 行云 云成本

一文读懂GPU参数选择

青椒云云电脑

云桌面 GPU算力

macos平台数据保护推荐 Data Guardian 免激活最新

mac大玩家j

数据保护 Mac软件 数据保护软件 保护数据

一文带你实现云上部署轻量化定制表单Docker

华为云开发者联盟

开源 云原生 华为云 华为云开发者联盟 企业号9月PK榜

F5为OpenTelemetry项目提供降本增效的技术支持

科技热闻

为什么GPU引领加速计算时代

青椒云云电脑

GPU算力

QCN9074, QCN9274, QCN6274 - Wi-Fi 6E bands: 2.4 GHz, 5 GHz and 6 GHz

wifi6-yiyi

QCN9074 Wi-Fi 6E

NFTScan | 09.18~09.24 NFT 市场热点汇总

NFT Research

NFT\

开源项目专访 | XuperCore——让信任的链接更加便捷

开放原子开源基金会

面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!_AI&大模型_褚杏娟_InfoQ精选文章