4月10-12日 QCon 北京,与全球 140+ 顶尖工程师共同解构 AI 时代的技术浪潮! 了解详情
写点什么

通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频

  • 2024-09-01
    北京
  • 本文字数:2938 字

    阅读完需:约 10 分钟

大小:1.35M时长:07:52
通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频

2023 年 8 月,通义千问开源第一代视觉语言理解模型 Qwen-VL,成为开源社区最受欢迎的多模态模型之一。短短一年内,模型下载量突破 1000 万次。目前,多模态模型在手机、车端等各类视觉识别场景的落地正在加速,开发者和应用企业也格外关注 Qwen-VL 的升级迭代。


据悉,相比上代模型,Qwen2-VL 的基础性能全面提升,可以读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;可以理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作;能理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。



通义千问团队从六个方面评估了模型能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。Qwen2-VL-7B 以其“经济型”参数规模实现了极具竞争力的性能表现;Qwen2-VL-2B 则可支持移动端的丰富应用,同样具备完整图像视频多语言的理解能力,在视频文档和通用场景问答方面,相比同规模模型优势显著。

测试表现


  • 视频理解与实时聊天


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    • Visual Agent 能力:函数调用和视觉交互



    • 视觉推理


    用户:请告诉我从 Ruka 的生日到 Yuki 的生日有多少天?仔细地一步步思考。



    Qwen2-VL:


    要确定 Ruka 和 Yuki 生日之间的天数,我们需要计算他们各自生日日期之间的差异。

    1、Ruka 的生日是在 6 月 24 日。

    2、Yuki 的生日是在 9 月 17 日。

    让我们一步步来计算:

    1. 从 6 月 24 日到 6 月 30 日:

    • 从 6 月 24 日到 6 月 30 日共有 6 天。

    2. 从 7 月 1 日到 8 月 31 日:

    • 7 月有 31 天。

    • 8 月有 31 天。

    • 7 月和 8 月总共有 31 + 31 = 62 天。

    3. 从 9 月 1 日到 9 月 17 日:

    • 从 9 月 1 日到 9 月 17 日共有 17 天。

    现在我们将所有的天数加起来:

    • 从 6 月 24 日到 6 月 30 日:6 天

    • 从 7 月 1 日到 8 月 31 日:62 天

    • 从 9 月 1 日到 9 月 17 日:17 天

    总天数 = 6 + 62 + 17 = 85 天

    因此,Ruka 和 Yuki 的生日之间共有 85 天。


    • 更细节的识别理解


    用户:转录图中内容,并识别图中每段内容的语言。



    Qwen2-VL:


    1. 汉语,也称为“华语”。是中国使用人数最多的语言,也是世界上作为第一语言使用人数最多的语言。是中华优秀传统文化的重要载体。繁体字,又稱為“繁體中文”,與“簡化字”/“簡體字”相對。一般是指漢字簡化運動被簡化字所代替的漢字。

    2. 语言:中文

    3. 日本語は地方ごとに多様な方言があり、とりわけ琉球諸島で方言差が著しい。

    4. 语言:日语

    5. 한국어(韓國語), 조선말(朝鮮말)는 대한민국과 조선민주주의인민공화국의 공용어이다. 둘은 표기나 문법에서는 차이가 없지만 동사 어미나 표현에서 차이가 있다.

    6. 语言:韩语

    7. Le français est une langue indo-européenne de la famille des langues romanes dont les locuteurs sont appelés « francophones ».

    8. 语言:法语

    9. El español o castellano es una lengua romance procedente del latín hablado, perteneciente a la familia de lenguas indoeuropeas.

    10. 语言:西班牙语

    11. A língua portuguesa, também designada português, é uma língua indo-europeia românica flexiva ocidental originada no galego-português falado no Reino da Galiza e no norte de Portugal.

    12. 语言:葡萄牙语

    13. Is ceann de na teangacha Ceilteacha í an Ghaeilge (nó Gaeilge na hÉireann mar a thugtar uirthi corruair), agus ceann de na trí cinn de theangacha Ceilteacha ar a dtugtar na teangacha Gaelacha (Gaeilge, Gaeilge Mhanann agus Gaeilge na hAlban) go háirithe.

    14. 语言:爱尔兰语

    15. English is a West Germanic language in the Indo-European language family, whose speakers, called Anglophones, originated in early medieval England on the island of Great Britain.

    16. 语言:英语

    17. Die deutsche Sprache bzw. Deutsch ist eine westgermanische Sprache, die weltweit etwa 90 bis 105 Millionen Menschen als Muttersprache und weiteren rund 80 Millionen als Zweit- oder Fremdsprache dient.

    18. 语言:德语

    19. Język polski, polszczyzna — język z grupy zachodniosłowiańskiej (do której należą również czeski, kaszubski, słowacki, języki łużyckie czy wymarły język drzewiański), stanowiącej część rodziny indoeuropejskiej.

    语言:波兰语
    
    1. Η ελληνική γλώσσα ανήκει στην ινδοευρωπαϊκή οικογένεια και αποτελεί το μοναδικό μέλος του ελληνικού κλάδου.

    语言:希腊语
    
    1. Tiếng Việt hay Việt ngữ là một ngôn ngữ thuộc ngữ hệ Nam Á, được công nhận là ngôn ngữ chính thức tại Việt Nam.

    语言:越南语
    
    1. Монгол хэл нь Монгол улсын албан ёсны хэл юм.

    语言:蒙古语
    
    1. Число владеющих русским языком в России составляет 137,5 млн человек (2010). Всего в мире на русском говорят 258,2 млн человек (2022)

    语言:俄语
    
    1. हिन्दी विश्व की एक प्रमुख भाषा है और भारत की एक राजभाषा है। केन्द्रीय स्तर पर भारत में सह-आधिकारिक भाषा अंग्रेज़ी है।

    语言:印地语
    
    1. Kiswahili ni lugha ya Kibantu yenye misamiati mingi ya Kiarabu (35%), lakini sasa ya Kiingereza pia (10%), inayozungumzwa katika eneo kubwa la Afrika ya Mashariki.

    语言:斯瓦希里语
    


    架构改进


    Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构,三个尺寸的模型都采用了 600M 规模大小的 ViT,支持图像和视频统一输入。研发团队还在架构上作了两大改进:


    一是实现了对原生动态分辨率的全面支持,不同于上代模型,Qwen2-VL 能够处理任意分辨率的图像输入,这一设计模拟了人类视觉感知的自然方式,赋予模型处理任意尺寸图像的强大能力;


    二是使用了多模态旋转位置嵌入(M-ROPE)方法,传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,赋予了语言模型强大的多模态处理和推理能力,能让模型更好地理解和建模复杂的多模态数据。



    目前,通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型,也可通过通义官网、通义 APP 的主对话页面使用模型。


    GitHub:https://github.com/QwenLM/Qwen2-VL


    HuggingFacehttps://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d


    魔搭 ModelScope:https://modelscope.cn/organization/qwen?tab=model


    模型体验:https://huggingface.co/spaces/Qwen/Qwen2-VL


    2024-09-01 11:066876

    评论

    发布
    暂无评论
    发现更多内容

    2021年去一线大厂面试先过SSM框架源码这一关!,你还看不明白?

    Java 程序员 后端

    2021最新华为面经分享:Java高分面试指南(25分类1000题50w字解析

    Java 程序员 后端

    2021!阿里技术官最新发布Java零基础就业宝典,不用再怀疑人生了

    Java 程序员 后端

    21 利用分布式消息队列降低系统耦合性,java后端项目实战

    Java 程序员 后端

    2021最新 SSM(Spring+Spring MVC,java分布式系统面试题

    Java 程序员 后端

    23种设计模式与六大原则看了又忘,忘了又看?是你看的方法不对

    Java 程序员 后端

    2021先定个小目标?搞清楚MyCat分片的两种拆分方法和分片规则!

    Java 程序员 后端

    2021最强面试笔记非它莫属:3000字Java面试核心手册(大厂必备

    Java 程序员 后端

    20年IT农民工终于分享出了SpringCloud微服务架构实战文档,太强了!(1)

    Java 程序员 后端

    2021年九月最新Java面试必背八股文,338道最新大厂架构面试题

    Java 程序员 后端

    深度学习平台百度飞桨亮相"十三五"科技创新成就展

    百度大脑

    人工智能 百度

    用四个问题引导员工解决问题

    石云升

    职场经验 管理经验 10月月更

    2021最新美团面经分享:999页Java程序员面试清单(下载量已突破30W

    Java 程序员 后端

    太难为我了,三战阿里,拿下27K*16offer(附七面面经)

    Java 程序员 架构 面试 后端

    2021备战金三银四血拼一波算法:字节+百度,Java进阶推荐

    Java 程序员 后端

    2021年备战金三银四:死磕“源码,百度网盘搜索引擎java

    Java 程序员 后端

    2021金三银四程序员必备:“基础-中级-高级,几种线程安全的Map解析

    Java 程序员 后端

    32 岁的我裸辞了,八年 Java 老鸟,只因薪水被应届生倒挂

    Java 程序员 后端

    2021全网最新、最全面“互联网大厂面试题库2400页,nginx反向代理负载均衡原理

    Java 程序员 后端

    2021年面试会更难?Java必备209道真题,这份清单助你轻松入阿里

    Java 程序员 后端

    208道Java高频面试题,让你面试之路畅通无阻!,med教程入门教程

    Java 程序员 后端

    2021年京东、拼多多、腾讯,javaspringboot面试题

    Java 程序员 后端

    2021年最新Java后端学习路线,适用于所有想要踏入Java行业的初学者!

    Java 程序员 后端

    2021年金三银四最新美团、字节、阿里,阿里巴巴java面试流程

    Java 程序员 后端

    20年IT农民工终于分享出了SpringCloud微服务架构实战文档,太强了!

    Java 程序员 后端

    30天消化MyBatis源码解析笔记,吊打面试官,offer接到手软

    Java 程序员 后端

    2021年Java面试题抢先看,够全!中篇,java基础程序

    Java 程序员 后端

    2021年Java面试题抢先看,够全!,java技术支持面试题

    Java 程序员 后端

    2021最新Java岗面试清单:15个技术模块(程序员必备,威力加强版

    Java 程序员 后端

    2021终于拿到阿里Java后端岗offer!只因我做了这个决定

    Java 程序员 后端

    2021首次分享面试阿里P6心得:1000字超全面试题答案解析

    Java 程序员 后端

    通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频_AI&大模型_褚杏娟_InfoQ精选文章