写点什么

DeepSeek 除夕炸场!发布开源多模态大模型,击败 OpenAI DALL-E 3

  • 2025-01-28
    北京
  • 本文字数:1017 字

    阅读完需:约 3 分钟

大小:505.87K时长:02:52
DeepSeek除夕炸场!发布开源多模态大模型,击败OpenAI DALL-E 3

这个除夕,所有的聚光灯理应给到 DeepSeek。


刚刚,人工智能社区 Hugging Face 显示,DeepSeek 刚刚发布了开源多模态人工智能(AI)模型 Janus-Pro,这是一款基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 构建的模型。在这系列模型中,Janus-Pro-7B 在 GenEval 和 DPG-Bench 基准测试中击败了 OpenAI 的 DALL-E 3 和 Stable Diffusion。



GitHub 项目地址:https://github.com/deepseek-ai/Janus?tab=readme-ov-file

HuggingFace 项目地址:https://huggingface.co/deepseek-ai/Janus-Pro-1B


据悉,Janus-Pro 是一种创新的自回归框架,旨在统一多模态理解与生成任务。它通过将视觉编码解耦为独立的路径,同时仍采用单一的统一 Transformer 架构进行处理,从而解决了以往方法的局限性。这种解耦不仅缓解了视觉编码器在理解与生成任务中的角色冲突,还增强了框架的灵活性。值得一提的是,Janus-Pro 超越了以往的统一模型,还在性能上媲美甚至超越了针对特定任务设计的模型。


Janus-Pro 的发布在网上引发了轩然大波,但也有网友认为,Janus-Pro 虽然在基准测试中赢了 DALL-E 3,但基准测试毕竟不等于实际应用,DPG-Bench 看重生成质量和理解能力,实际用起来效果还得看落地表现。



具体来说,Janus-Pro-7B 在多模态理解基准 MMBench 上取得了 79.2 的分数,超越了 Janus (69.4)、TokenFlow (68.9)等最先进的统一多模态模型,和 MetaMorph (75.2)。此外,在文本到图像指令跟踪排行榜 GenEval 中,Janus-Pro-7B 得分为 0.80,优于 Janus (0.61)、DALL-E 3 (0.67) 和 Stable Diffusion 3 Medium(0.74)。



Janus-Pro-7B 在 GenEval 上获得了 80% 的总体准确率,这优于所有其他统一或仅生成的方法,例如 Transfusion (63%) SD3-Medium (74%) 和 DELLE-E 3 (67%)。这表明我们的方法具有更好的指令跟踪能力。另外,Janus-Pro 在 DPG-Bench 上获得了 84.19 的分数,超过了所有其他方法。这表明 Janus-Pro 擅长遵循密集的指令来生成文本到图像。


在多模态理解方面,它使用 SigLIP-L 作为视觉编码器,支持 384x384 的图像输入。在图像生成方面,Janus-Pro 使用了来源于此的分词器(tokenizer),其下采样率为 16。


但值得一提的是,由于太过火爆,DeepSeek 现在已经限制国外新用户注册了,海外用户需要购买虚拟账号注册方能使用。


DeepSeek 在其官方公告中表示:近期 DeepSeek 线上服务受到大规模恶意攻击,为持续提供服务,暂时限制了+86 手机号以外的注册方式已注册用户可以正常登录,感谢理解和支持。


最后,祝大家新春快乐!

2025-01-28 09:5120011
用户头像
李冬梅 加V:busulishang4668

发布了 1059 篇内容, 共 675.1 次阅读, 收获喜欢 1220 次。

关注

评论

发布
暂无评论

上海交大师生畅用满血DeepSeek!昇腾加速中国自主创新大模型

极客天地

【FAQ】HarmonyOS SDK 闭源开放能力 —Scan Kit(2)

HarmonyOS SDK

harmoyos

新闻速递丨2025 年度 Altair Enlighten Award 作品征集正式启动

Altair RapidMiner

altair 轻量化大赛 轻量化设计 轻量化技术 Enlighten Award

国内加大政策推动,多层级标准建立产业规范

芯盾时代

数据安全 零信任 信息安全建设

AI 智能体(AI Agent)的开发框架

北京木奇移动技术有限公司

AI开发 AI智能体 软件外包公司

昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1,重塑AI短剧行业格局

新消费日报

行云管家加入信创生态联盟“金兰组织”, 携手共建信创产业新生态

行云管家

信创 信创国产化

告别传统仿真!深度求索大模型正在重新定义工业设计未来

思茂信息

AI 仿真 DeepSeek

YashanDB金融特性数据库根原创实验室成立

极客天地

AI 智能体(AI Agent)的开发

北京木奇移动技术有限公司

AI开发 AI智能体 软件外包公司

一文带你了解清楚供应链管理!

积木链小链

数字化转型 数字化 制造业 供应链管理

Elasticsearch AI Assistant 集成 DeepSeek,1分钟搭建智能运维助手

阿里云大数据AI技术

elasticsearch 可视化 nlp AI搜索 DeepSeek

百度网盘防雪崩架构实践

百度Geek说

百度 后端 架构-

KubeEdge 1.20.0发布! 6大新特性提升边缘管理能力

华为云开发者联盟

容器 云原生 k8s 边缘计算 kubeedge

发挥数据在财务规划转型过程中的关键作用

智达方通

企业管理 全面预算管理 财务预测

延长LED显示屏使用寿命指南

Dylan

商业 广告 LED LED display LED显示屏

人工智能丨DeepSeek风靡一时:一篇文章带你全面了解这款AI工具的强大之处

测试人

DeepSeek

AI 智能体的开发技术

北京木奇移动技术有限公司

AI开发 AI智能体 软件外包公司

Go 语言互斥锁

FunTester

当AI邂逅日志海:从骨感现实到无限可能

权说安全

AI 网络安全

淘宝天猫数据API接口秘籍:快速获取商品详情与关键词搜索商品

代码忍者

淘宝API接口

AI智能体应用的开发环境

北京木奇移动技术有限公司

AI开发 AI智能体 软件外包公司

DeepSeek除夕炸场!发布开源多模态大模型,击败OpenAI DALL-E 3_生成式 AI_李冬梅_InfoQ精选文章