AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

字节 Seedream 3.0 追平 GPT-4o 入文生图第一梯队!即梦、豆包全量上线,技术报告公开

字节跳动

  • 2025-04-16
    北京
  • 本文字数:1261 字

    阅读完需:约 4 分钟

大小:646.25K时长:03:40
字节Seedream 3.0追平GPT-4o入文生图第一梯队!即梦、豆包全量上线,技术报告公开

文生图领域权威的第三方榜单 Artificial Analysis 竞技场发布消息称,字节跳动Seed 团队图像生成模型 Seedream 3.0 综合性能已追平文生图 SOTA 模型 GPT-4o,稳定超越 Recraft V3、Ideogram、Imagen 3、Midjourney V6.1 等模型,进入全球第一梯队。

 


Seedream 3.0 是字节近日发布的新一代文生图主力模型,目前已在即梦、豆包等平台全量开放。据 Seedream 3.0 技术报告,Seedream3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型,无需后处理即可实现 2K 分辨率图像直出,适配多比例场景,同时针对小字体高保真生成、多行文本排版等业界难题,模型也取得了突破性的效果表现。

 

值得一提的是,Seedream 3.0 在 3 秒左右即可快速生成 1K 分辨率的高品质内容,相比之下,业界同类模型生成该分辨率内容的耗时基本在 10 秒以上,而此前文生图 SOTA 模型 GPT-4o 平均耗时为 77 秒。

 

图注:Seedream3.0 技术报告中评测结果

 

豆包大模型团队推文介绍称,Seedream3.0 研发始于 2024 年末,通过调研设计师等群体的实际需求,团队不仅将图文匹配、结构、美感等行业共识性指标纳入攻坚方向,同时,也将挑战小字生成与复杂文本排版、2K 高清直出、快速图片生成等难题作为核心目标。

 

针对 2K 分辨率、多尺寸图像直出能力实现,团队借助了 Transformers 架构对变长输入序列的灵活处理能力,在从 512x512 到 2048x2048 的多种分辨率和不同长宽比上混合训练,让模型实现不经过额外深加工的高清直出,同时也支持多种分辨率输出。

 

为支持快速生成高品质图像,模型采用自研推理加速算法,依靠一致性噪声预测,叠加重要时间步采样,最终实现对模型的无损加速。在保障图文匹配、美学质量、结构准确度等指标的前提下,Seedream 3.0 生成 1K 分辨率图像仅需 3 秒。

 

图注:Seedream3.0 输出图像细节丰富,蝴蝶绒毛根根分明

 

Seedream3.0 还大幅提升了小字体高保真生成、多行文本语义排版表现,满足设计师对海报设计的需求。团队在预训练阶段,引入跨模态旋转位置编码,补足传统方法模态特征对齐短板,进一步加强了文字渲染能力。

 

图注:Seedream3.0 模型可完成小字生成、多行文本排版,并兼顾画面美感

 

据 Seedream 团队介绍,相比此前 2.0 版本,Seedream 3.0 在数据和 RLHF 阶段也使用了全新方案。团队采用缺陷感知的训练策略,使有效数据集扩充超过 20%,同时设计了精准的美感描述维度,并进一步拓展 RLHF 奖励模型,使 Seedream 3.0 具备多维度质量判别能力,综合性能大幅提升。

 

图注:Seedream3.0 在美感等方面较 2.0 进一步提升

 

Seedream 团队表示,“新模型在海报创作、生成效率、结构与美感等方面取得了明显进步,但在生成可用性、美感与结构、智能化方面仍有提升空间。”

 

据了解,未来,团队计划探索更高效的结构设计,包括构建效果更好、成本更低、生成更快的文生图模型,并进一步拓展模型对世界知识的理解,赋予模型交织生成等能力。同时,团队也计划探索数据、模型量级、奖励模型等维度的 Scaling 现象,将认知积累应用于下一代模型中。

 

Seedream 3.0 技术报告:https://arxiv.org/abs/2504.11346

Seedream 3.0 官方网页:https://team.doubao.com/zh/tech/seedream3_0

2025-04-16 15:352

评论

发布
暂无评论

每日一R「08」类型系统(二)

Samson

8月月更 ​Rust

加码企业服务,阿里云发布计算巢加速器

阿里云弹性计算

PaaS 企业服务 计算巢 ISV

干货|语义网、Web3.0、Web3、元宇宙这些概念还傻傻分不清楚?(下)

Orillusion

WebGL 元宇宙 Metaverse webgpu #开源

java程序员培训后如何在一线城市找到工作

小谷哥

Web3 结算协议 Zebec Protocol 的商业模式与发展前景一览

BlockChain先知

Web3 结算协议 Zebec Protocol 的商业模式与发展前景一览

鳄鱼视界

a豆14 Pro高性能高颜笔记本,新潮配色助力打造a豆AIoT智能生态圈

科技热闻

Java性能优化的七个方向

小柴说Java

编程 JVM Java性能调优 Java性能优化

docker下,极速搭建spark集群(含hdfs集群)

程序员欣宸

spark 8月月更

[极致用户体验] 用户体验好的 Button,在手机上不应该有 Hover 态

HullQin

CSS JavaScript html 前端 8月月更

元宇宙系统源码——测试方案

开源直播系统源码

软件测试 软件开发 元宇宙

App切换到后台后如何保持持续定位?

HarmonyOS SDK

京东商品获取优惠券API接口-京东优惠券如何获取-京东联盟API接口

江苏京酷电子商务有限公司

json API 京东商城

STM32入门开发:编写XPT2046电阻触摸屏驱动(模拟SPI)

DS小龙哥

8月月更

华硕a豆召开智能生态发布会,软硬兼施解锁智能新生活

科技热闻

要相信自己可以解决问题

FunTester

面试突击:SpringBoot 有几种读取配置文件的方法?

Java编程日记

Java Spring Boot java程序员 java面试 面试突击

Java基础之Java枚举

自然

Java core 8月月更

不是吧,还有人不知道三目运算符的BUG

自然

基础 8月日更 8月月更

【云原生】SpringCloud Alibaba 之 Nacos注册中心实战

Bug终结者

Java 分布式 SpringCloud 8月月更

CAT认证敏捷团队教练工作坊 (Coaching Agile Teams) | 9月24日开课

ShineScrum

敏捷教练 专业教练 团队教练 GROW Model

RocketMQ高可用设计之消息发送重试

急需上岸的小谢

8月月更

面试突击75:SpringBoot 有几种读取配置文件的方法?

王磊

Java 常见面试题

Redis分布式锁-觉悟吧,红锁!

知识浅谈

redis分布式锁 8月月更

计算机网络(一、概述)

计算机网络 8月月更

Go-Excelize API源码阅读(十二)——SetSheetVisible(sheet string, visible bool)

Regan Yue

Go 开源 源码刨析 8月日更 8月月更

都说MySQL单表不要超过2000W行,这是真的吗?

Java全栈架构师

Java MySQL 数据库 程序员 面试

Java基础知识(一些需要注意的点)

自然

基础 8月月更

小菜鸟河北联通上岗培训随笔二

乌龟哥哥

8月月更

开源一夏 | 使用 Three.js 实现"雪糕"地球,让地球也凉爽一夏

战场小包

JavaScript 开源 前端 3D ThreeJS

再见MybatisPlus,阿里推出新ORM框架!

TimeFriends

8月月更

字节Seedream 3.0追平GPT-4o入文生图第一梯队!即梦、豆包全量上线,技术报告公开_字节跳动_字节跳动技术团队_InfoQ精选文章