写点什么

通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频

  • 2024-09-01
    北京
  • 本文字数:2938 字

    阅读完需:约 10 分钟

大小:1.35M时长:07:52
通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频

2023 年 8 月,通义千问开源第一代视觉语言理解模型 Qwen-VL,成为开源社区最受欢迎的多模态模型之一。短短一年内,模型下载量突破 1000 万次。目前,多模态模型在手机、车端等各类视觉识别场景的落地正在加速,开发者和应用企业也格外关注 Qwen-VL 的升级迭代。


据悉,相比上代模型,Qwen2-VL 的基础性能全面提升,可以读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;可以理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作;能理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。



通义千问团队从六个方面评估了模型能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。Qwen2-VL-7B 以其“经济型”参数规模实现了极具竞争力的性能表现;Qwen2-VL-2B 则可支持移动端的丰富应用,同样具备完整图像视频多语言的理解能力,在视频文档和通用场景问答方面,相比同规模模型优势显著。

测试表现


  • 视频理解与实时聊天


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    • Visual Agent 能力:函数调用和视觉交互



    • 视觉推理


    用户:请告诉我从 Ruka 的生日到 Yuki 的生日有多少天?仔细地一步步思考。



    Qwen2-VL:


    要确定 Ruka 和 Yuki 生日之间的天数,我们需要计算他们各自生日日期之间的差异。

    1、Ruka 的生日是在 6 月 24 日。

    2、Yuki 的生日是在 9 月 17 日。

    让我们一步步来计算:

    1. 从 6 月 24 日到 6 月 30 日:

    • 从 6 月 24 日到 6 月 30 日共有 6 天。

    2. 从 7 月 1 日到 8 月 31 日:

    • 7 月有 31 天。

    • 8 月有 31 天。

    • 7 月和 8 月总共有 31 + 31 = 62 天。

    3. 从 9 月 1 日到 9 月 17 日:

    • 从 9 月 1 日到 9 月 17 日共有 17 天。

    现在我们将所有的天数加起来:

    • 从 6 月 24 日到 6 月 30 日:6 天

    • 从 7 月 1 日到 8 月 31 日:62 天

    • 从 9 月 1 日到 9 月 17 日:17 天

    总天数 = 6 + 62 + 17 = 85 天

    因此,Ruka 和 Yuki 的生日之间共有 85 天。


    • 更细节的识别理解


    用户:转录图中内容,并识别图中每段内容的语言。



    Qwen2-VL:


    1. 汉语,也称为“华语”。是中国使用人数最多的语言,也是世界上作为第一语言使用人数最多的语言。是中华优秀传统文化的重要载体。繁体字,又稱為“繁體中文”,與“簡化字”/“簡體字”相對。一般是指漢字簡化運動被簡化字所代替的漢字。

    2. 语言:中文

    3. 日本語は地方ごとに多様な方言があり、とりわけ琉球諸島で方言差が著しい。

    4. 语言:日语

    5. 한국어(韓國語), 조선말(朝鮮말)는 대한민국과 조선민주주의인민공화국의 공용어이다. 둘은 표기나 문법에서는 차이가 없지만 동사 어미나 표현에서 차이가 있다.

    6. 语言:韩语

    7. Le français est une langue indo-européenne de la famille des langues romanes dont les locuteurs sont appelés « francophones ».

    8. 语言:法语

    9. El español o castellano es una lengua romance procedente del latín hablado, perteneciente a la familia de lenguas indoeuropeas.

    10. 语言:西班牙语

    11. A língua portuguesa, também designada português, é uma língua indo-europeia românica flexiva ocidental originada no galego-português falado no Reino da Galiza e no norte de Portugal.

    12. 语言:葡萄牙语

    13. Is ceann de na teangacha Ceilteacha í an Ghaeilge (nó Gaeilge na hÉireann mar a thugtar uirthi corruair), agus ceann de na trí cinn de theangacha Ceilteacha ar a dtugtar na teangacha Gaelacha (Gaeilge, Gaeilge Mhanann agus Gaeilge na hAlban) go háirithe.

    14. 语言:爱尔兰语

    15. English is a West Germanic language in the Indo-European language family, whose speakers, called Anglophones, originated in early medieval England on the island of Great Britain.

    16. 语言:英语

    17. Die deutsche Sprache bzw. Deutsch ist eine westgermanische Sprache, die weltweit etwa 90 bis 105 Millionen Menschen als Muttersprache und weiteren rund 80 Millionen als Zweit- oder Fremdsprache dient.

    18. 语言:德语

    19. Język polski, polszczyzna — język z grupy zachodniosłowiańskiej (do której należą również czeski, kaszubski, słowacki, języki łużyckie czy wymarły język drzewiański), stanowiącej część rodziny indoeuropejskiej.

    语言:波兰语
    
    1. Η ελληνική γλώσσα ανήκει στην ινδοευρωπαϊκή οικογένεια και αποτελεί το μοναδικό μέλος του ελληνικού κλάδου.

    语言:希腊语
    
    1. Tiếng Việt hay Việt ngữ là một ngôn ngữ thuộc ngữ hệ Nam Á, được công nhận là ngôn ngữ chính thức tại Việt Nam.

    语言:越南语
    
    1. Монгол хэл нь Монгол улсын албан ёсны хэл юм.

    语言:蒙古语
    
    1. Число владеющих русским языком в России составляет 137,5 млн человек (2010). Всего в мире на русском говорят 258,2 млн человек (2022)

    语言:俄语
    
    1. हिन्दी विश्व की एक प्रमुख भाषा है और भारत की एक राजभाषा है। केन्द्रीय स्तर पर भारत में सह-आधिकारिक भाषा अंग्रेज़ी है।

    语言:印地语
    
    1. Kiswahili ni lugha ya Kibantu yenye misamiati mingi ya Kiarabu (35%), lakini sasa ya Kiingereza pia (10%), inayozungumzwa katika eneo kubwa la Afrika ya Mashariki.

    语言:斯瓦希里语
    


    架构改进


    Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构,三个尺寸的模型都采用了 600M 规模大小的 ViT,支持图像和视频统一输入。研发团队还在架构上作了两大改进:


    一是实现了对原生动态分辨率的全面支持,不同于上代模型,Qwen2-VL 能够处理任意分辨率的图像输入,这一设计模拟了人类视觉感知的自然方式,赋予模型处理任意尺寸图像的强大能力;


    二是使用了多模态旋转位置嵌入(M-ROPE)方法,传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,赋予了语言模型强大的多模态处理和推理能力,能让模型更好地理解和建模复杂的多模态数据。



    目前,通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型,也可通过通义官网、通义 APP 的主对话页面使用模型。


    GitHub:https://github.com/QwenLM/Qwen2-VL


    HuggingFacehttps://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d


    魔搭 ModelScope:https://modelscope.cn/organization/qwen?tab=model


    模型体验:https://huggingface.co/spaces/Qwen/Qwen2-VL


    2024-09-01 11:066800

    评论

    发布
    暂无评论
    发现更多内容

    10年阿里开发架构师经验分享:rabbitmq教程go,Java零基础入门pdf

    Java 程序员 后端

    2020-2021京东Java面试真题解析,在线面试指南

    Java 程序员 后端

    2021Java开发现状分析,看完这一篇你就懂了

    Java 程序员 后端

    2021Java网络编程总结篇,百度技术三面四面,最全Java知识总结

    Java 程序员 后端

    实时即未来!Flink Forward Asia 2021 议程正式上线!

    Apache Flink

    大数据 flink

    月经逆行、体能差、雌激素影响心态……女性进入太空,要经历哪些科技伪命题?

    脑极体

    13分钟彻底搞懂分布式系统服务注册与发现原理,写给互联网大厂员工的真心话

    Java 程序员 后端

    上云,能打破低代码“内卷”吗?

    海比研究院

    低代码

    2020-2021蚂蚁金服Java面试真题解析,2021最新Java面试真题解析

    Java 程序员 后端

    2021Java精选面试实战总结整理,架构师必备

    Java 程序员 后端

    2021Java者未来的出路在哪里,kafka从入门到精通

    Java 程序员 后端

    2021Java高级面试题汇总解答,Java开发新手入门教程

    Java 程序员 后端

    在阿里云ECS服务器上部署OpenVPN

    wong

    Centos 7 OpenVPN ECS

    2021Java常见笔试题,牛客网java编程题送信,字节Java面试题

    Java 程序员 后端

    2021Java开发面试解答,数据库mysql教程视频教程,90%的人看完都说好

    Java 程序员 后端

    2021Java进阶者的新篇章,Java全栈知识体系

    Java 程序员 后端

    2021Java高级进阶学习资料,字节跳动Java高级工程师

    Java 程序员 后端

    2021Java高级面试题总结,kafka面试常见问题

    Java 程序员 后端

    2021Java高级面试题,极客时间vip年卡,看懂这些帮你轻松解决就业问题

    Java 程序员 后端

    做一名真正的软件工程师

    百度开发者中心

    程序员 最佳实践 分享 工程师

    Activity重启引起的重复发送消息Bug分析

    轻口味

    android 10月月更

    2021Java面试心得,shiro框架视频尚硅谷,最新Java开发进阶

    Java 程序员 后端

    1200页文档笔记,Java+JVM+MySQL+数据结构与算法

    Java 程序员 后端

    12道Java高级面试题:开课吧数据分析百度云,大厂Java开发面试解答

    Java 程序员 后端

    万物智联与烟火人间,一场跨越20年的双向奔赴

    脑极体

    2021Java开发学习路线,两年Java开发经验

    Java 程序员 后端

    2021Java精选面试实战总结整理,讲的太透彻了

    Java 程序员 后端

    2021Java面试笔试总结,jdk使用教程,Java高级工程师必备知识

    Java 程序员 后端

    12年高级工程师的“飞升之路”,Java知识点总结合集

    Java 程序员 后端

    15个经典面试问题及回答思路,Java面试你必须要知道的那些知识

    Java 程序员 后端

    2021Java常见面试题,牛客网中级项目异步队列,Java高级面试题及答案整理

    Java 程序员 后端

    通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频_AI&大模型_褚杏娟_InfoQ精选文章