写点什么

DeepSeek 除夕炸场!发布开源多模态大模型,击败 OpenAI DALL-E 3

  • 2025-01-28
    北京
  • 本文字数:1017 字

    阅读完需:约 3 分钟

大小:505.87K时长:02:52
DeepSeek除夕炸场!发布开源多模态大模型,击败OpenAI DALL-E 3

这个除夕,所有的聚光灯理应给到 DeepSeek。


刚刚,人工智能社区 Hugging Face 显示,DeepSeek 刚刚发布了开源多模态人工智能(AI)模型 Janus-Pro,这是一款基于 DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base 构建的模型。在这系列模型中,Janus-Pro-7B 在 GenEval 和 DPG-Bench 基准测试中击败了 OpenAI 的 DALL-E 3 和 Stable Diffusion。



GitHub 项目地址:https://github.com/deepseek-ai/Janus?tab=readme-ov-file

HuggingFace 项目地址:https://huggingface.co/deepseek-ai/Janus-Pro-1B


据悉,Janus-Pro 是一种创新的自回归框架,旨在统一多模态理解与生成任务。它通过将视觉编码解耦为独立的路径,同时仍采用单一的统一 Transformer 架构进行处理,从而解决了以往方法的局限性。这种解耦不仅缓解了视觉编码器在理解与生成任务中的角色冲突,还增强了框架的灵活性。值得一提的是,Janus-Pro 超越了以往的统一模型,还在性能上媲美甚至超越了针对特定任务设计的模型。


Janus-Pro 的发布在网上引发了轩然大波,但也有网友认为,Janus-Pro 虽然在基准测试中赢了 DALL-E 3,但基准测试毕竟不等于实际应用,DPG-Bench 看重生成质量和理解能力,实际用起来效果还得看落地表现。



具体来说,Janus-Pro-7B 在多模态理解基准 MMBench 上取得了 79.2 的分数,超越了 Janus (69.4)、TokenFlow (68.9)等最先进的统一多模态模型,和 MetaMorph (75.2)。此外,在文本到图像指令跟踪排行榜 GenEval 中,Janus-Pro-7B 得分为 0.80,优于 Janus (0.61)、DALL-E 3 (0.67) 和 Stable Diffusion 3 Medium(0.74)。



Janus-Pro-7B 在 GenEval 上获得了 80% 的总体准确率,这优于所有其他统一或仅生成的方法,例如 Transfusion (63%) SD3-Medium (74%) 和 DELLE-E 3 (67%)。这表明我们的方法具有更好的指令跟踪能力。另外,Janus-Pro 在 DPG-Bench 上获得了 84.19 的分数,超过了所有其他方法。这表明 Janus-Pro 擅长遵循密集的指令来生成文本到图像。


在多模态理解方面,它使用 SigLIP-L 作为视觉编码器,支持 384x384 的图像输入。在图像生成方面,Janus-Pro 使用了来源于此的分词器(tokenizer),其下采样率为 16。


但值得一提的是,由于太过火爆,DeepSeek 现在已经限制国外新用户注册了,海外用户需要购买虚拟账号注册方能使用。


DeepSeek 在其官方公告中表示:近期 DeepSeek 线上服务受到大规模恶意攻击,为持续提供服务,暂时限制了+86 手机号以外的注册方式已注册用户可以正常登录,感谢理解和支持。


最后,祝大家新春快乐!

2025-01-28 09:5119256
用户头像
李冬梅 加V:busulishang4668

发布了 1034 篇内容, 共 647.2 次阅读, 收获喜欢 1199 次。

关注

评论

发布
暂无评论

“阿里爸爸”最新Java面试指南,基础+框架+数据库+系统设计+算法

收到请回复

Java 架构 计算机 语言 & 开发

记一次血淋淋的MySQL崩溃修复案例

华为云开发者联盟

数据库 后端

后台服务架构高性能设计之道

C++后台开发

后台开发 后端开发 Linux服务器开发 高性能服务器 C++开发

网络知识平面简介

俞凡

网络 知识平面

中台 vs 平台

agnostic

中台

Python自学教程8-数据类型有哪些注意事项

和牛

8月月更 python数据类型

Solana流支付协议Zebec又完成一笔850万美元融资

鳄鱼视界

认识微服务 SpringCloud (史上最全学习路线)

微服务 spring could 8月月更

采访236位第一批秋招上岸的同学后,我整理了这份Java面试手册

收到请回复

Java 架构 面试 语言 & 开发 秋招

数字化智慧园区

科技云未来

C/CPP基础练习题(二)简单循环(2 + 22 + 222…;斐波那契数列)

CtrlX

c c++ 8月月更

全卫定制龙头企业-伽蓝集团数字化转型之路

神奇视野

华为云智能监管

科技云未来

DTSE 技术讲座 |云原生架构下的数字身份治理实践

华为云开发者联盟

云计算 云原生 后端 SaaS

契约测试的三种模式

agnostic

契约测试

【实用】用 FP 思想将 JS 循环做简单封装~

掘金安东尼

前端 8月月更

数夫携手图森,打造高整木定制数字化标杆

神奇视野

南洋迪克“整装”起飞,数夫系统打通端到端高效服务流程

神奇视野

九章云极DataCanvas公司携因果学习开源重器登录WAIC!

九章云极DataCanvas

人工智能

闲谈游戏项目管理——篇一:稳定生产的流程管理

南方

项目管理 游戏

面试中的Spring,我们该怎么去回答

TimeFriends

8月月更

INFINI 产品更新啦 20220826

极限实验室

elasticsearch console Gateway agent INFINI Labs

豆瓣 TOP3 的 Python 书,千万别错过

图灵社区

[JS入门到进阶] 7条关于 async await 的使用口诀,新学 async await?背10遍,以后要考!快收藏

HullQin

CSS JavaScript html 前端 8月月更

rocksdb无法alter的解决方案

趁早

Python 教程之数据分析(2)—— 探索性数据分析

海拥(haiyong.site)

Python 8月月更

蚂蚁金服开源的这份SpringBoot笔记,曾在24小时内GitHub星标48k

收到请回复

Java 架构 面试 语言 & 开发 秋招

Python图像处理丨图像的灰度线性变换

华为云开发者联盟

Python 人工智能

K8s 长什么样子,一文道清它的整体架构

网管

架构 k8s 后端

被裁后半月面试8家公司无果,凭借这份Java面试指南成功入职阿里

收到请回复

Java 架构 语言 & 开发

AI模型集成到业务系统的方式演化

felix

tensorflow serving 模型开发 工程

DeepSeek除夕炸场!发布开源多模态大模型,击败OpenAI DALL-E 3_生成式 AI_李冬梅_InfoQ精选文章