QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

DeepSeek 除夕炸场!发布开源多模态大模型,击败 OpenAI DALL-E 3

  • 2025-01-28
    北京
  • 本文字数:1017 字

    阅读完需:约 3 分钟

大小:505.87K时长:02:52
DeepSeek除夕炸场!发布开源多模态大模型,击败OpenAI DALL-E 3

这个除夕,所有的聚光灯理应给到 DeepSeek。


刚刚,人工智能社区 Hugging Face 显示,DeepSeek 刚刚发布了开源多模态人工智能(AI)模型 Janus-Pro,这是一款基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 构建的模型。在这系列模型中,Janus-Pro-7B 在 GenEval 和 DPG-Bench 基准测试中击败了 OpenAI 的 DALL-E 3 和 Stable Diffusion。



GitHub 项目地址:https://github.com/deepseek-ai/Janus?tab=readme-ov-file

HuggingFace 项目地址:https://huggingface.co/deepseek-ai/Janus-Pro-1B


据悉,Janus-Pro 是一种创新的自回归框架,旨在统一多模态理解与生成任务。它通过将视觉编码解耦为独立的路径,同时仍采用单一的统一 Transformer 架构进行处理,从而解决了以往方法的局限性。这种解耦不仅缓解了视觉编码器在理解与生成任务中的角色冲突,还增强了框架的灵活性。值得一提的是,Janus-Pro 超越了以往的统一模型,还在性能上媲美甚至超越了针对特定任务设计的模型。


Janus-Pro 的发布在网上引发了轩然大波,但也有网友认为,Janus-Pro 虽然在基准测试中赢了 DALL-E 3,但基准测试毕竟不等于实际应用,DPG-Bench 看重生成质量和理解能力,实际用起来效果还得看落地表现。



具体来说,Janus-Pro-7B 在多模态理解基准 MMBench 上取得了 79.2 的分数,超越了 Janus (69.4)、TokenFlow (68.9)等最先进的统一多模态模型,和 MetaMorph (75.2)。此外,在文本到图像指令跟踪排行榜 GenEval 中,Janus-Pro-7B 得分为 0.80,优于 Janus (0.61)、DALL-E 3 (0.67) 和 Stable Diffusion 3 Medium(0.74)。



Janus-Pro-7B 在 GenEval 上获得了 80% 的总体准确率,这优于所有其他统一或仅生成的方法,例如 Transfusion (63%) SD3-Medium (74%) 和 DELLE-E 3 (67%)。这表明我们的方法具有更好的指令跟踪能力。另外,Janus-Pro 在 DPG-Bench 上获得了 84.19 的分数,超过了所有其他方法。这表明 Janus-Pro 擅长遵循密集的指令来生成文本到图像。


在多模态理解方面,它使用 SigLIP-L 作为视觉编码器,支持 384x384 的图像输入。在图像生成方面,Janus-Pro 使用了来源于此的分词器(tokenizer),其下采样率为 16。


但值得一提的是,由于太过火爆,DeepSeek 现在已经限制国外新用户注册了,海外用户需要购买虚拟账号注册方能使用。


DeepSeek 在其官方公告中表示:近期 DeepSeek 线上服务受到大规模恶意攻击,为持续提供服务,暂时限制了+86 手机号以外的注册方式已注册用户可以正常登录,感谢理解和支持。


最后,祝大家新春快乐!

2025-01-28 09:517
用户头像
李冬梅 加V:busulishang4668

发布了 988 篇内容, 共 594.8 次阅读, 收获喜欢 1150 次。

关注

评论

发布
暂无评论

大国重器 数智领航——用友助力核工业迈向高质量发展新征程

用友BIP

2024年最佳公司网盘:口碑爆棚的10款工具盘点

易成研发中心

探索 Meme 项目 GAGA:2024 年新的万倍前瞻,助你走向巅峰

股市老人

用友BIP超级版:释放数据要素价值,加速企业决策智能化

用友BIP

更聪明、有感情、有态度:数字人助力企业创新营销力、生产效率双提升

科技热闻

OpenTelemetry 赋能DevOps流程的可观测性革命

乘云数字DataBuff

DevOps 运维 OpenTelemetry

2024年企业云盘推荐:十大实用工具解析

易成研发中心

产品管理和项目管理有哪些不同的工作重点?

爱吃小舅的鱼

项目管理 产品管理

网盘企业版哪个好用?盘点8款适合企业使用的网盘

易成研发中心

探索Bash编程:开启自动化脚本的魔法之旅

测试人

软件测试

实现高效运行管理:如何使用 NSSM 工具将 IoTDB 注册为 Windows 系统服务

Apache IoTDB

数智化背景下审计行业的变革与应对之策

不在线第一只蜗牛

低代码 数智化

量化训练及精度调优经验分享

地平线开发者

自动驾驶; 算法、

淘宝 1688 API 接口助力构建高效跨境独立站系统

tbapi

淘宝代购集运系统 外贸独立站 反向海淘系统 跨境独立站

深度盘点:国内7大企业网盘私有化部署厂商

易成研发中心

Spring事务传播机制(最全示例)

快乐非自愿限量之名

spring

新业财税资档一体化:全面营运资金管理就选用友BIP超级版

用友BIP

选择支持在线编辑的企业网盘,看看这些主流5款

易成研发中心

深度学习怎么选"炼丹炉"

Finovy Cloud

深度学习 云电脑 云电脑平台 云电脑云桌面

风霜雨雪总关情:气象局如何推进实时数据在环境和气候科学的应用实践,让气象数据供得出、流得动、用得上

tapdata

实时数据集成 mongodb聚合计算 气象数据 气象数据平台

企业云盘推荐:11款主流网盘优劣势分析

易成研发中心

企业网盘选择推荐:2024年十大网盘产品排行榜

易成研发中心

避免赛事版权风险!开发合法获取赛事内容体育直播平台

软件开发-梦幻运营部

施工管理工具如何选?9款实用软件推荐

爱吃小舅的鱼

施工管理工具

Python库版本检查:简单步骤全掌握

幂简集成

Python

博睿数据登顶中国应用性能管理及可观测性APMO市场份额第一!

博睿数据

APM 可观测性 IDC

天润融通“AI破局 • 聚力增长”主题论坛圆满收官

天润融通

天润融通活动预告丨走进上汽集团,探秘数智标杆

天润融通

亚马逊云科技宣布新推出Elasticahe for Redis的 Valkey缓存

伊克罗德信息科技

易点天下受邀出席甲骨文中国创新峰会 共探AI加速中企高质量出海

新消费日报

深入分析2024年文档管理系统排名:十大工具对比

易成研发中心

DeepSeek除夕炸场!发布开源多模态大模型,击败OpenAI DALL-E 3_生成式 AI_李冬梅_InfoQ精选文章