QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型 Ovis

  • 2024-09-19
    北京
  • 本文字数:1374 字

    阅读完需:约 5 分钟

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型Ovis

看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际 AI 团队发布了一款多模态大模型 Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了 SOTA(最新技术)水平。

 

多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图像。与大型语言模型(LLMs)相比,大语言模型在处理和生成文本数据方面有专长,而多模态大模型能够处理非文本数据,如图像等等。

 

根据多模态权威综合评测平台 OpenCompass 的数据,Ovis1.6-Gemma2-9B 在 30B 参数以下的模型中取得了综合排名第一,赶超 MiniCPM-V-2.6 等行业优秀大模型。

 

图:Ovis 在 OpenCompass 上的测评数据情况

 

据介绍,Ovis 能够在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。例如,Ovis 可以准确回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。

 

案例 1:Ovis 对手写文案的识别及翻译能力

 

案例 2:Ovis 对复杂数学公式的处理能力


案例 3:Ovis 通过对图片的识别处理能够给出菜谱

 

具体来说,Ovis 模型有五大优点:


1、创新架构设计:可学习的视觉嵌入词表:首次引入,将连续的视觉特征转换为概率化的视觉 token,再经由视觉嵌入词表加权生成结构化的视觉嵌入,克服了大部分 MLLM 中 MLP 连接器架构的局限性,大幅提升多模态任务表现。


2、高分图像处理:动态子图方案:支持处理极端长宽比的图像,兼容高分辨率图像,展现出色的图像理解能力。


3、全面数据优化:多方向数据集覆盖:全面覆盖 Caption、VQA、OCR、Table、Chart 等各个多模态数据方向,显著提升多模态问答、指令跟随等任务表现。


4、卓越模型性能:Ovis 展现出了优异的榜单表现。在多模态权威综合评测 Opencompass 上,Ovis1.6-Gemma2-9B 在 30B 参数以下的模型中取得了综合排名第一,超过了 Qwen2-VL-7B、MiniCPM-V-2.6 等模型。尤其在数学问答等方向表现媲美 70B 参数模型;在幻觉等任务中,Ovis-1.6 的幻觉现象和错误率显著低于同级别的模型,展现了更高的生成文本质量和准确性。


5、全部开源可商用:Ovis 系列模型 License 采用 Apache 2.0。Ovis 1.0、1.5 的数据、模型、训练和推理代码都已全部开源,可复现。Ovis1.6 系列中的 Ovis1.6-Gemma2-9B 也已开源权重。


在 AI 领域,多模态大模型的应用场景非常广泛,包括但不限于自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等。例如,在自动驾驶领域,多模态大模型可以整合来自摄像头、雷达和激光雷达的数据,以实现更精准的环境感知和决策。由于多模态大模型能够学习如何联合理解和生成跨多种模式的信息,也被视为朝向通用人工智能的下一个步骤。

 

根据此前媒体报道,阿里国际在去年成立了一支 AI 团队,目前已经在 40 多个电商场景里测试了 AI 能力,覆盖跨境电商全链路,包括商品图文、营销、搜索、广告投放、SEO、客服、退款、店铺装修等,其中多个应用场景均基于 Ovis 模型进行开发,已帮助 50 万中小商家、对 1 亿款商品进行了信息优化。据介绍,商家的 AI 需求不断增长,近半年的数据显示,平均每两个月,商家对于 AI 的调用量就翻 1 倍。


附相关链接:

论文 arXiv: https://arxiv.org/abs/2405.20797

Github: https://github.com/AIDC-AI/Ovis

Huggingface: https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

Demo: https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

2024-09-19 10:5812444
用户头像
鲁冬雪 GMI Cloud China Marketing Manager

发布了 364 篇内容, 共 283.2 次阅读, 收获喜欢 299 次。

关注

评论

发布
暂无评论
发现更多内容

在充满挑战的时代天翼云以数字化加速市域社会治理现代化

天翼云开发者社区

东方电机打造大国重器 携手天翼云挺起智能制造新脊梁 智能制造的力量 东方电机的数字化前行之路

天翼云开发者社区

翻译 | 解读首部 Kubernetes 纪录片

RadonDB

开源 Kubernetes RadonDB

写给20几岁的程序员

shellc

财富 35岁

华为云大数据轻模式体验:忘掉底层烦恼,专注数据开发

华为云开发者联盟

大数据 Serverless 数据湖 数据开发 华为云

Redis现网那些坑:用个缓存,还要为磁盘故障买单?

华为云数据库小助手

redis GaussDB GaussDB ( for Redis ) 华为云数据库

天翼云发布云原生关系型数据库TeleDB for openGauss

天翼云开发者社区

如何打造极速数据湖分析引擎

StarRocks

数据库 数据分析 StarRocks

VuePress 博客优化之增加 Valine 评论功能

冴羽

JavaScript 前端 vuepress 博客搭建 Alogia

高精度轻量级目标检测产业应用,实现多类通信塔识别

百度大脑

Flutter ChartSpace:通过跨端 Canvas 实现图表库

字节跳动终端技术

flutter 字节跳动 前端 canvas 图表库

一周信创舆情观察(2.28~3.6)

统小信uos

【51单片机】点亮LED灯(四种形式)

謓泽

3月月更

[架构实战营] 模块9设计

Vincent

「架构实战营」

2022年3月中国数据库排行榜:TiDB “三连降”仍霸榜首,“常胜四将军”得分集体下跌

墨天轮

数据库 TiDB 国产数据库 KingBase gbase8a

ENS 域名终极指南

devpoint

以太坊 eth 3月月更 ens

极速体验|使用 Erda 微服务观测接入 Jaeger Trace

尔达Erda

云计算 微服务 云原生 PaaS 分布式架构

不为人知的网络编程(十四):拔掉网线再插上,TCP连接还在吗?一文即懂!

JackJiang

网络编程 TCP/IP TCP协议 即时通讯IM

HAVE FUN | SOFARegistry 源码解析

SOFAStack

GitHub 开源 程序员 开发者 源码剖析

上讯信息正式加入openGauss社区

以数字化为引领天翼云助力中安公司应急管理云平台上线

天翼云开发者社区

java高级用法之:调用本地方法的利器JNA

程序那些事

Java nio 程序那些事 3月月更

Linux curl命令详解

学神来啦

云计算 Linux 运维 curl

在线YAML转TOML工具

入门小站

工具

2022全网最详细的音视频开发学习路线,零基础到项目实战,从小白到音视频专家

Linux服务器开发

音视频 WebRTC ffmpeg 音视频开发 流媒体服务器开发

人脸识别闸机惊艳美国运动员背后的黑科技是如何实现的?

天翼云开发者社区

Linux之netstat命令

入门小站

Linux

星际营23期开始招募 门槛高,但是优秀项目可获得全额奖学金,敢来挑战吗?

创业邦

基于云效代码管理的源码漏洞检测是怎样的?

阿里云云效

阿里云 代码 代码管理 源代码 Codeup

经验分享 | 如何搭建FAQ/用户培训手册

小炮

运营 客户服务

详细解读阿里云开源PolarDB总体架构和企业级特性

阿里云数据库开源

数据库 阿里云 polarDB

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型Ovis_阿里巴巴_鲁冬雪_InfoQ精选文章