写点什么

通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频

  • 2024-09-01
    北京
  • 本文字数:2938 字

    阅读完需:约 10 分钟

大小:1.35M时长:07:52
通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频

2023 年 8 月,通义千问开源第一代视觉语言理解模型 Qwen-VL,成为开源社区最受欢迎的多模态模型之一。短短一年内,模型下载量突破 1000 万次。目前,多模态模型在手机、车端等各类视觉识别场景的落地正在加速,开发者和应用企业也格外关注 Qwen-VL 的升级迭代。


据悉,相比上代模型,Qwen2-VL 的基础性能全面提升,可以读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;可以理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作;能理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。



通义千问团队从六个方面评估了模型能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。Qwen2-VL-7B 以其“经济型”参数规模实现了极具竞争力的性能表现;Qwen2-VL-2B 则可支持移动端的丰富应用,同样具备完整图像视频多语言的理解能力,在视频文档和通用场景问答方面,相比同规模模型优势显著。

测试表现


  • 视频理解与实时聊天


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    • Visual Agent 能力:函数调用和视觉交互



    • 视觉推理


    用户:请告诉我从 Ruka 的生日到 Yuki 的生日有多少天?仔细地一步步思考。



    Qwen2-VL:


    要确定 Ruka 和 Yuki 生日之间的天数,我们需要计算他们各自生日日期之间的差异。

    1、Ruka 的生日是在 6 月 24 日。

    2、Yuki 的生日是在 9 月 17 日。

    让我们一步步来计算:

    1. 从 6 月 24 日到 6 月 30 日:

    • 从 6 月 24 日到 6 月 30 日共有 6 天。

    2. 从 7 月 1 日到 8 月 31 日:

    • 7 月有 31 天。

    • 8 月有 31 天。

    • 7 月和 8 月总共有 31 + 31 = 62 天。

    3. 从 9 月 1 日到 9 月 17 日:

    • 从 9 月 1 日到 9 月 17 日共有 17 天。

    现在我们将所有的天数加起来:

    • 从 6 月 24 日到 6 月 30 日:6 天

    • 从 7 月 1 日到 8 月 31 日:62 天

    • 从 9 月 1 日到 9 月 17 日:17 天

    总天数 = 6 + 62 + 17 = 85 天

    因此,Ruka 和 Yuki 的生日之间共有 85 天。


    • 更细节的识别理解


    用户:转录图中内容,并识别图中每段内容的语言。



    Qwen2-VL:


    1. 汉语,也称为“华语”。是中国使用人数最多的语言,也是世界上作为第一语言使用人数最多的语言。是中华优秀传统文化的重要载体。繁体字,又稱為“繁體中文”,與“簡化字”/“簡體字”相對。一般是指漢字簡化運動被簡化字所代替的漢字。

    2. 语言:中文

    3. 日本語は地方ごとに多様な方言があり、とりわけ琉球諸島で方言差が著しい。

    4. 语言:日语

    5. 한국어(韓國語), 조선말(朝鮮말)는 대한민국과 조선민주주의인민공화국의 공용어이다. 둘은 표기나 문법에서는 차이가 없지만 동사 어미나 표현에서 차이가 있다.

    6. 语言:韩语

    7. Le français est une langue indo-européenne de la famille des langues romanes dont les locuteurs sont appelés « francophones ».

    8. 语言:法语

    9. El español o castellano es una lengua romance procedente del latín hablado, perteneciente a la familia de lenguas indoeuropeas.

    10. 语言:西班牙语

    11. A língua portuguesa, também designada português, é uma língua indo-europeia românica flexiva ocidental originada no galego-português falado no Reino da Galiza e no norte de Portugal.

    12. 语言:葡萄牙语

    13. Is ceann de na teangacha Ceilteacha í an Ghaeilge (nó Gaeilge na hÉireann mar a thugtar uirthi corruair), agus ceann de na trí cinn de theangacha Ceilteacha ar a dtugtar na teangacha Gaelacha (Gaeilge, Gaeilge Mhanann agus Gaeilge na hAlban) go háirithe.

    14. 语言:爱尔兰语

    15. English is a West Germanic language in the Indo-European language family, whose speakers, called Anglophones, originated in early medieval England on the island of Great Britain.

    16. 语言:英语

    17. Die deutsche Sprache bzw. Deutsch ist eine westgermanische Sprache, die weltweit etwa 90 bis 105 Millionen Menschen als Muttersprache und weiteren rund 80 Millionen als Zweit- oder Fremdsprache dient.

    18. 语言:德语

    19. Język polski, polszczyzna — język z grupy zachodniosłowiańskiej (do której należą również czeski, kaszubski, słowacki, języki łużyckie czy wymarły język drzewiański), stanowiącej część rodziny indoeuropejskiej.

    语言:波兰语
    
    1. Η ελληνική γλώσσα ανήκει στην ινδοευρωπαϊκή οικογένεια και αποτελεί το μοναδικό μέλος του ελληνικού κλάδου.

    语言:希腊语
    
    1. Tiếng Việt hay Việt ngữ là một ngôn ngữ thuộc ngữ hệ Nam Á, được công nhận là ngôn ngữ chính thức tại Việt Nam.

    语言:越南语
    
    1. Монгол хэл нь Монгол улсын албан ёсны хэл юм.

    语言:蒙古语
    
    1. Число владеющих русским языком в России составляет 137,5 млн человек (2010). Всего в мире на русском говорят 258,2 млн человек (2022)

    语言:俄语
    
    1. हिन्दी विश्व की एक प्रमुख भाषा है और भारत की एक राजभाषा है। केन्द्रीय स्तर पर भारत में सह-आधिकारिक भाषा अंग्रेज़ी है।

    语言:印地语
    
    1. Kiswahili ni lugha ya Kibantu yenye misamiati mingi ya Kiarabu (35%), lakini sasa ya Kiingereza pia (10%), inayozungumzwa katika eneo kubwa la Afrika ya Mashariki.

    语言:斯瓦希里语
    


    架构改进


    Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构,三个尺寸的模型都采用了 600M 规模大小的 ViT,支持图像和视频统一输入。研发团队还在架构上作了两大改进:


    一是实现了对原生动态分辨率的全面支持,不同于上代模型,Qwen2-VL 能够处理任意分辨率的图像输入,这一设计模拟了人类视觉感知的自然方式,赋予模型处理任意尺寸图像的强大能力;


    二是使用了多模态旋转位置嵌入(M-ROPE)方法,传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,赋予了语言模型强大的多模态处理和推理能力,能让模型更好地理解和建模复杂的多模态数据。



    目前,通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型,也可通过通义官网、通义 APP 的主对话页面使用模型。


    GitHub:https://github.com/QwenLM/Qwen2-VL


    HuggingFacehttps://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d


    魔搭 ModelScope:https://modelscope.cn/organization/qwen?tab=model


    模型体验:https://huggingface.co/spaces/Qwen/Qwen2-VL


    2024-09-01 11:066483

    评论

    发布
    暂无评论

    架构师训练营第十二周作业

    坂田吴奇隆

    极客大学架构师训练营

    架构师训练营第十二周-总结

    坂田吴奇隆

    极客大学架构师训练营

    架构师训练营 week12 - 学习总结

    devfan

    week12 作业

    雪涛公子

    极客大学架构师训练营 0 期 week 12 作业

    chun1123

    大数据 hive

    架构师训练营学习总结(大数据)

    qihuajun

    JWT认证看这一篇就够了

    架构师修行之路

    程序员 架构

    深度解析OAuth 2.0授权!!

    架构师修行之路

    架构 高并发系统设计 OAuth 2.0

    大数据架构之上

    李小匪

    大数据 架构

    架构师训练营 week12

    devfan

    PageRank简述

    朱月俊

    mapReduce

    纯纯

    架构师训练营Week12学习总结

    Frank Zeng

    Week 12 作业

    鱼_XueTr

    大数据简介&架构(一)

    dony.zhang

    大数据 hdfs hive YARN MAPRED

    架构师训练营第十二周总结

    R20114

    极客大学架构师训练营 0 期 week 12 学习笔记

    chun1123

    大数据 学习

    架构师训练营作业

    qihuajun

    架构师训练营第十二周作业

    吴吴

    第12周作业

    Jaye

    史上第二全的java文件操作和数据读写

    诸葛小猿

    文件读写 inputstream OutputStream PrintWriter BufferedReader

    人生需要正确选择

    朱月俊

    Flink从一致性检查点中恢复-14

    小知识点

    scala 大数据 flink

    Go云原生应用实战系列(一)

    田晓亮

    云计算 微服务 云原生 Go 语言

    架构师训练营 week 12 作业

    Frank Zeng

    第 12 周作业

    Mr.Monkey

    逛过这个商城,摄像机竟然学会了独立思考

    脑极体

    大数据课程笔记

    superman

    极客时间训练营-12周作业

    潜默闻雨

    极客时间训练营-12周作业2

    潜默闻雨

    w-12

    麻辣

    极客大学架构师训练营

    通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频_AI&大模型_褚杏娟_InfoQ精选文章