商汤发布多模态多任务通用大模型：30亿参数，现已开源_AI&大模型_李冬梅_InfoQ精选文章

报名参加CloudWeGo黑客松，奖金直推双丰收！了解详情 



 写点什么

登录/注册

商汤发布多模态多任务通用大模型：30亿参数，现已开源

3 月 14 日，商汤科技发布了多模态多任务通用大模型“书生（INTERN）2.5”，并已经开源。

据商汤介绍，该模型拥有 30 亿参数，是目前全球开源模型中ImageNet准确度最高、规模最大，同时也是物体检测标杆数据集 COCO 中唯一超过 65.0 mAP 的模型。

“书生（INTERN）”最初版本由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学在 2021 年 11 月首次共同发布，并持续联合研发。凭借在多模态多任务处理能力方面多项突破，“书生 2.5”的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持，向通用人工智能又迈出了坚实一步。

即日起，“书生 2.5”多模态通用大模型已在商汤参与的通用视觉开源平台 OpenGVLab 开源。

迈向 AGI 通用人工智能

在当今快速增长的各式应用场景需求下，传统计算机视觉已无法处理真实世界中数不胜数的特定任务和场景需求。我们迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。

“书生 2.5”实现了通过文本来定义任务，从而可以灵活地定义不同场景的任务需求，并根据给定视觉图像和任务的提示性语句，给出相应的指令或作答，进而具备通用场景下的高级感知和复杂问题处理能力，比如图像描述、视觉问答、视觉推理和文字识别等。

在自动驾驶和居家机器人等通用场景下，“书生 2.5”可辅助处理各种复杂任务。例如在自动驾驶场景下，可以大幅提升场景感知理解能力，准确地辅助车辆判断交通信号灯状态、道路标志牌等信息，为车辆的决策规划提供有效信息输入。

“书生 2.5”同时具备AIGC“以文生图”的能力，可根据用户提出的文本创作需求，利用扩散模型生成算法，生成高质量、自然的写实图像。例如借助“书生 2.5”的以文生图能力帮助自动驾驶技术研发，通过生成各类真实的道路交通场景，如繁忙的城市街道、雨天拥挤的车道、马路上奔跑的狗等，生成写实的 Corner Case 训练数据，进而训练自动驾驶系统对 Corner Case 场景的感知能力上限。

“书生 2.5”还可根据文本快速检索出视觉内容。例如，可在相册中返回文本所指定的相关图像，或是在视频中，检索出与文本描述最相关的帧，提高视频中时间定位任务的效率。此外还支持引入物体检测框，根据文本返回最相关的物体，可实现开放世界视频或图像中物体检测及视觉定位。

囊括三大模型能力，打通 NLP、图像等多模态任务处理

“书生 2.5”在图文跨模态领域优秀的性能表现来自于视觉、语言及多任务建模三大模型能力的有效融合，即 InternImage-G 通用视觉大模型、用于文本理解的超大语言预训练模型（LLM）和用于多任务的兼容解码建模大模型（Uni-Perceiver）。

其中，InternImage-G 通用视觉大模型能够基于动态稀疏卷积算子自适应地调整卷积的位置和组合方式，从而为多功能视觉感知提供强大的表示。

超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。Uni-Perceiver 通才任务解码建模通过将不同模态的数据编码到统一的表示空间，将不同任务统一为相同的任务范式，从而能够以相同的架构和共享的模型参数同时处理各种模态和任务。此外，“书生 2.5”还创新性地引入了任务级别的稀疏激活机制，使其具备高效的多任务协作能力。

在视觉主流图像分类数据集 ImageNet 上，该模型仅基于公开数据便达到了 90.1%的 Top-1 准确率。这是除谷歌与微软之外，唯一准确率超过 90.0%的模型，值得一提的是，谷歌与微软均未公开模型及额外数据集。

“书生 2.5”项目地址：https://github.com/OpenGVLab/InternImage

评论

发布

暂无评论

收割腾讯等十几个Offer后，揭秘进大厂的秘诀和Android技术面试题汇总！

android 程序员移动开发

教你如何使用Flutter和原生App混合开发(1)，Android开发面试解答之Handler

android 程序员移动开发

最新-Android-面试点梳理，我收藏了你呢？，事件分发机制怎么回答

android 程序员移动开发

浅谈ConcurrentHashMap，2021大厂Android面试题精选

android 程序员移动开发

教你如何使用Flutter和原生App混合开发，androidstudio项目实战

android 程序员移动开发

普通程序员，三年成为年薪70w架构师，只因有了这些习惯

android 程序员移动开发

曾经身为一名Android面试官的我，如今去别的公司面试被虐成狗！我也有今天7

android 程序员移动开发

泛型使用到原理，2020-2021阿里巴巴安卓面试真题解析

android 程序员移动开发

无意苦争春，一任群芳妒！看完这份2020年度大厂Android面试总结

android 程序员移动开发

最全-BAT-大厂Java和Android面试题整理！为接下来秋招金九银十做准备（聪明人已经收藏了

android 程序员移动开发

最好用的安卓按钮，含泪狂刷Android基础面试118题

android 程序员移动开发

没想到位图算法在Android RecyclerView中还可以这样应用！

android 程序员移动开发

收好这份钉钉和抖音的客户端面经，真的很重要！，ndk开发环境

android 程序员移动开发

数据结构(三), 弄懂红黑树RBTree(多图警告!!!)，帮你突破瓶颈

android 程序员移动开发

文字太多？控件太小？试试 TextView 的新特性 Autosizing 吧

android 程序员移动开发

新鲜出炉的Android面试题，确定不来看看吗？还有超详细的答案解析哦

android 程序员移动开发

没有对象怎么面向对象编程呢？真让人头秃！，android音视频编解码

android 程序员移动开发

春招结束，腾讯+字节，android移动开发基础案例教程答案

android 程序员移动开发

最后再说一次！！不要在你的App启动界面设置SingleTask-SingleInstance

android 程序员移动开发

最新 Android 热门开源项目公布，androidframework开发书籍

android 程序员移动开发

来自程序员的感叹：我怎么就没有阿里，腾讯，安卓内存监控悬浮窗

android 程序员移动开发

数据结构篇09、哈希表--简化版HashMap，一线互联网移动架构师360°全方面性能调优

android 程序员移动开发

数据结构篇11、映射Map及其三种底层实现，android插件化框架

android 程序员移动开发

来自Android菜鸟的思考：普通公司的程序员技术跟大厂的差距在哪？怎样才能达到大厂技术水平

android 程序员移动开发

某 Android 大牛 “凡尔赛”，Android-Camera内存问题剖析

android 程序员移动开发

浅谈Android热更新的前因后果 _ Android ，Android面试基础知识

android 程序员移动开发

教你如何使用Jetpack绘制天气图，史上最详细！，跨平台app开发框架

android 程序员移动开发

注意-跳槽必看啊!2020BATJZ大厂面筋集合!(建议收藏)，android开发网上购物app

android 程序员移动开发

浅谈-Android-Handler，h5移动端开发面试题

android 程序员移动开发

文档06-H264解码流程，android实战开发项目阅读器

android 程序员移动开发

月薪20+的Android面试都问些什么？，android实战开发记账本app视频

android 程序员移动开发