速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型 Ovis

  • 2024-09-19
    北京
  • 本文字数:1374 字

    阅读完需:约 5 分钟

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型Ovis

看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际 AI 团队发布了一款多模态大模型 Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了 SOTA(最新技术)水平。

 

多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图像。与大型语言模型(LLMs)相比,大语言模型在处理和生成文本数据方面有专长,而多模态大模型能够处理非文本数据,如图像等等。

 

根据多模态权威综合评测平台 OpenCompass 的数据,Ovis1.6-Gemma2-9B 在 30B 参数以下的模型中取得了综合排名第一,赶超 MiniCPM-V-2.6 等行业优秀大模型。

 

图:Ovis 在 OpenCompass 上的测评数据情况

 

据介绍,Ovis 能够在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。例如,Ovis 可以准确回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。

 

案例 1:Ovis 对手写文案的识别及翻译能力

 

案例 2:Ovis 对复杂数学公式的处理能力


案例 3:Ovis 通过对图片的识别处理能够给出菜谱

 

具体来说,Ovis 模型有五大优点:


1、创新架构设计:可学习的视觉嵌入词表:首次引入,将连续的视觉特征转换为概率化的视觉 token,再经由视觉嵌入词表加权生成结构化的视觉嵌入,克服了大部分 MLLM 中 MLP 连接器架构的局限性,大幅提升多模态任务表现。


2、高分图像处理:动态子图方案:支持处理极端长宽比的图像,兼容高分辨率图像,展现出色的图像理解能力。


3、全面数据优化:多方向数据集覆盖:全面覆盖 Caption、VQA、OCR、Table、Chart 等各个多模态数据方向,显著提升多模态问答、指令跟随等任务表现。


4、卓越模型性能:Ovis 展现出了优异的榜单表现。在多模态权威综合评测 Opencompass 上,Ovis1.6-Gemma2-9B 在 30B 参数以下的模型中取得了综合排名第一,超过了 Qwen2-VL-7B、MiniCPM-V-2.6 等模型。尤其在数学问答等方向表现媲美 70B 参数模型;在幻觉等任务中,Ovis-1.6 的幻觉现象和错误率显著低于同级别的模型,展现了更高的生成文本质量和准确性。


5、全部开源可商用:Ovis 系列模型 License 采用 Apache 2.0。Ovis 1.0、1.5 的数据、模型、训练和推理代码都已全部开源,可复现。Ovis1.6 系列中的 Ovis1.6-Gemma2-9B 也已开源权重。


在 AI 领域,多模态大模型的应用场景非常广泛,包括但不限于自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等。例如,在自动驾驶领域,多模态大模型可以整合来自摄像头、雷达和激光雷达的数据,以实现更精准的环境感知和决策。由于多模态大模型能够学习如何联合理解和生成跨多种模式的信息,也被视为朝向通用人工智能的下一个步骤。

 

根据此前媒体报道,阿里国际在去年成立了一支 AI 团队,目前已经在 40 多个电商场景里测试了 AI 能力,覆盖跨境电商全链路,包括商品图文、营销、搜索、广告投放、SEO、客服、退款、店铺装修等,其中多个应用场景均基于 Ovis 模型进行开发,已帮助 50 万中小商家、对 1 亿款商品进行了信息优化。据介绍,商家的 AI 需求不断增长,近半年的数据显示,平均每两个月,商家对于 AI 的调用量就翻 1 倍。


附相关链接:

论文 arXiv: https://arxiv.org/abs/2405.20797

Github: https://github.com/AIDC-AI/Ovis

Huggingface: https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

Demo: https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

2024-09-19 10:5812126
用户头像
鲁冬雪 GMI Cloud China Marketing Manager

发布了 362 篇内容, 共 264.8 次阅读, 收获喜欢 294 次。

关注

评论

发布
暂无评论
发现更多内容

Offer收割机!阿里P7大神甩出JSP实战笔记,网友:信息量过大

飞飞JAva

Java

“红黑树”详解丨红黑树的应用场景

Linux服务器开发

后端 红黑树 Linux服务器开发 Linux内核 红黑树应用场景

编程风格漫谈

顿晓

编程风格 5月日更

智能会话机器人:SaaS 平台的设计与思考

极客志

自然语言处理 chatbot 聊天机器人 智能会话机器人

全新 Jira 系列,适用于所有团队!

Atlassian

DevOps 敏捷 Atlassian Jira

马丁格尔策略交易软件源码,量化策略系统开发

Tars Java 客户端源码分析

vivo互联网技术

Java TARS RPC架构

爬虫实战教程:采集微信公众号文章

前嗅大数据

大数据 爬虫 数据采集 爬虫教程

Hive解析Json数组超全讲解

五分钟学大数据

hive 5月日更

“服务可达的数据链DNA” ,打通从代码到用户的“任督二脉”

博睿数据

数据链DNA

【HDC.Cloud 2021】边云协同,打通AI最后一公里

华为云原生团队

人工智能 开源 云原生 边缘计算 华为云

架构实战营 模块三作业

netspecial

架构实战营

现代电信企业:极低延迟与复杂决策如何兼得?

VoltDB

数据分析 5G 数据平台 低延迟

超详细教程:SpringBoot整合MybatisPlus

华为云开发者联盟

Java spring springboot 代码 MyBatisPlus

架构实战模块三作业

Geek_649372

架构实战营

Jmeter下载与mysql简单操作

InfoQ_Springup

工具软件

nmon和nmon analyser的网盘下载安装与使用

InfoQ_Springup

工具

为何“低代码”频频引发业界热议?

优秀

低代码

如何快速排查发现redis的bigkey?4种方案一次性给到你!

观测云

redis 云计算 云服务

纯干货!看了10多篇Thread详解,只有阿里P7大佬的这份才是王者

牛哄哄的java大师

Java Thread

模块2学习总结

TH

架构实战营

模块2作业 微信朋友圈高性能复杂度

TH

架构实战营

如何快速制作短视频?拥有这个神器,轻松搞定!

奈奈的杂社

短视频 视频剪辑 自媒体

如何在苹果M1上安装使用FL Studio

奈奈的杂社

编曲 教程分享 编曲软件

看完阿里P7技术大牛的JVM知识点总结,竟帮我斩获了3份大厂Offer

飞飞JAva

Java JVM

关于安卓设备声音远程传输的解决方案

行者AI

云平台

从狗狗币说起 看区块链的未来发展方向

CECBC

狗狗币

运维五一不加班,从一套On-Call响应机制开始!

睿象云

运维 告警 智能运维 告警设置 告警管理

腾讯T6!万字长文体系化讲解Spring源码,码农:太透彻了,学会了

牛哄哄的java大师

Java

一周信创舆情观察(4.26~5.5)

统小信uos

打破思维定式(三)

Changing Lin

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型Ovis_阿里巴巴_鲁冬雪_InfoQ精选文章