QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型 Ovis

  • 2024-09-19
    北京
  • 本文字数:1374 字

    阅读完需:约 5 分钟

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型Ovis

看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际 AI 团队发布了一款多模态大模型 Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了 SOTA(最新技术)水平。

 

多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图像。与大型语言模型(LLMs)相比,大语言模型在处理和生成文本数据方面有专长,而多模态大模型能够处理非文本数据,如图像等等。

 

根据多模态权威综合评测平台 OpenCompass 的数据,Ovis1.6-Gemma2-9B 在 30B 参数以下的模型中取得了综合排名第一,赶超 MiniCPM-V-2.6 等行业优秀大模型。

 

图:Ovis 在 OpenCompass 上的测评数据情况

 

据介绍,Ovis 能够在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。例如,Ovis 可以准确回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。

 

案例 1:Ovis 对手写文案的识别及翻译能力

 

案例 2:Ovis 对复杂数学公式的处理能力


案例 3:Ovis 通过对图片的识别处理能够给出菜谱

 

具体来说,Ovis 模型有五大优点:


1、创新架构设计:可学习的视觉嵌入词表:首次引入,将连续的视觉特征转换为概率化的视觉 token,再经由视觉嵌入词表加权生成结构化的视觉嵌入,克服了大部分 MLLM 中 MLP 连接器架构的局限性,大幅提升多模态任务表现。


2、高分图像处理:动态子图方案:支持处理极端长宽比的图像,兼容高分辨率图像,展现出色的图像理解能力。


3、全面数据优化:多方向数据集覆盖:全面覆盖 Caption、VQA、OCR、Table、Chart 等各个多模态数据方向,显著提升多模态问答、指令跟随等任务表现。


4、卓越模型性能:Ovis 展现出了优异的榜单表现。在多模态权威综合评测 Opencompass 上,Ovis1.6-Gemma2-9B 在 30B 参数以下的模型中取得了综合排名第一,超过了 Qwen2-VL-7B、MiniCPM-V-2.6 等模型。尤其在数学问答等方向表现媲美 70B 参数模型;在幻觉等任务中,Ovis-1.6 的幻觉现象和错误率显著低于同级别的模型,展现了更高的生成文本质量和准确性。


5、全部开源可商用:Ovis 系列模型 License 采用 Apache 2.0。Ovis 1.0、1.5 的数据、模型、训练和推理代码都已全部开源,可复现。Ovis1.6 系列中的 Ovis1.6-Gemma2-9B 也已开源权重。


在 AI 领域,多模态大模型的应用场景非常广泛,包括但不限于自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等。例如,在自动驾驶领域,多模态大模型可以整合来自摄像头、雷达和激光雷达的数据,以实现更精准的环境感知和决策。由于多模态大模型能够学习如何联合理解和生成跨多种模式的信息,也被视为朝向通用人工智能的下一个步骤。

 

根据此前媒体报道,阿里国际在去年成立了一支 AI 团队,目前已经在 40 多个电商场景里测试了 AI 能力,覆盖跨境电商全链路,包括商品图文、营销、搜索、广告投放、SEO、客服、退款、店铺装修等,其中多个应用场景均基于 Ovis 模型进行开发,已帮助 50 万中小商家、对 1 亿款商品进行了信息优化。据介绍,商家的 AI 需求不断增长,近半年的数据显示,平均每两个月,商家对于 AI 的调用量就翻 1 倍。


附相关链接:

论文 arXiv: https://arxiv.org/abs/2405.20797

Github: https://github.com/AIDC-AI/Ovis

Huggingface: https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

Demo: https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

2024-09-19 10:5812261
用户头像
鲁冬雪 GMI Cloud China Marketing Manager

发布了 362 篇内容, 共 271.0 次阅读, 收获喜欢 297 次。

关注

评论

发布
暂无评论
发现更多内容

IT运维的福音!WeOps综合服务让运维更简单

嘉为蓝鲸

运维 IT weops

gRPC 接口调试利器,让你成为高效开发者

Apifox

程序员 gRPC RPC 开发 RPC 协议实现原理

简单三步完成离线升级TIDB v7.1(服务器无互联网环境)

TiDB 社区干货传送门

版本升级 7.x 实践

tidb之旅——资源管控

TiDB 社区干货传送门

新版本/特性解读 7.x 实践

数据库运维实操优质文章分享(含Oracle、MySQL等) | 2023年6月刊

墨天轮

MySQL 数据库 oracle postgresql 国产数据库

# 文盘Rust -- FFI 浅尝

TiDB 社区干货传送门

开发语言

云数据库是杀猪盘么,去掉中间商赚差价,aws数据库性能提升 10 倍!价格便宜十倍。

TiDB 社区干货传送门

数据库架构设计 7.x 实践

TiDB 7.1.0 LTS 特性解读 | 资源管控 (Resource Control) 应该知道的 6 件事

TiDB 社区干货传送门

版本测评 新版本/特性解读 7.x 实践

新能力提升全面预算管理效率和效力

用友BIP

全面预算

《2022-2023年中国大数据市场研究年度报告》正式发布,腾讯云位列领导者行列

Geek_2d6073

华为开发者大会:软件开发小白的华为云云上初体验

华为云PaaS服务小智

云计算 软件开发 华为云 华为开发者大会2023

TiDB v7.1.0 资源管控功能是如何降低运维难度和成本-实现集群资源最大化?

TiDB 社区干货传送门

实践案例 版本测评 性能测评 应用适配 7.x 实践

TiKV集群断电(灾难)恢复过程记录

TiDB 社区干货传送门

6.x 实践

万字好文:大报文问题实战 | 京东物流技术团队

京东科技开发者

MySQL 网关 报文 企业号 7 月 PK 榜 大报文

tidb之旅——dm工具篇

TiDB 社区干货传送门

迁移 安装 & 部署 6.x 实践

京东统一头尾管理系统探索实践 | 京东云技术团队

京东科技开发者

管理系统 企业号 7 月 PK 榜 头尾管理

一份保姆级的Stable Diffusion部署教程,开启你的炼丹之路 | 京东云技术团队

京东科技开发者

人工智能 AI绘画 Stable Diffusion 企业号 7 月 PK 榜

亿级日活业务稳如磐石 华为云发布性能测试服务CodeArts PerfTest

华为云PaaS服务小智

云计算 软件开发 性能测试 华为云

tidb之旅——tidb架构选择

TiDB 社区干货传送门

迁移 安装 & 部署 6.x 实践

活动预告|7月29日 Streaming Lakehouse Meetup·北京站

Apache Flink

大数据 flink 实时计算 信息推送

TiDB v7.1.0 跨业务系统多租户解决方案

TiDB 社区干货传送门

实践案例 新版本/特性解读 应用适配 HTAP 场景实践 7.x 实践

aws上采用tidb和原生使用aws rds价格的比较。兼数据分析性能的测试

TiDB 社区干货传送门

TiDB 底层架构 性能测评 7.x 实践

索引加速功能真能提升10倍吗?--TiDB V6.1.0-V7.1.0建索引速度对比

TiDB 社区干货传送门

版本测评 性能测评 7.x 实践

TiDB 7.1 资源管控验证测试

TiDB 社区干货传送门

版本测评 新版本/特性解读 7.x 实践

数智化赋能企业,开启全新商业模式

用友BIP

国产替代

这10个强大的CSS属性,每个前端都要懂

伤感汤姆布利柏

加速布局,用友为国产化替代保驾护航!

用友BIP

国产替代

科研类项目核算的“法、术、器”(一)

用友BIP

项目云

快速提效,便捷易用 | 嘉为蓝鲸数字化运营中心全方位体验升级

嘉为蓝鲸

运维 IT weops

阿里云瑶池数据库出席2023可信数据库发展大会,PolarDB荣获多项评测证书

科技热闻

tidb之旅——生成列

TiDB 社区干货传送门

新版本/特性解读 7.x 实践

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型Ovis_阿里巴巴_鲁冬雪_InfoQ精选文章