写点什么

腾讯文生图大模型全面开源!首个中文原生 DiT 架构,支持中英双语理解生成

  • 2024-05-14
    北京
  • 本文字数:2023 字

    阅读完需:约 7 分钟

大小:1.00M时长:05:50
腾讯文生图大模型全面开源!首个中文原生DiT架构,支持中英双语理解生成

作者 | 华卫


5 月 14 日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

开源代码库链接: https://github.com/Tencent/HunyuanDiT

 

“混元 DiT 开源的价值主要有两方面,一是作为中文原生 DiT 架构,弥补了开源社区的空白;二是混元 DiT 为全面开源,与现网版本完全一致。”腾讯混元文生图负责人卢清林表示。

 


据介绍,这是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解,参数量 15 亿。升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。其评测数据显示,新一代的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型。

 

三大能力升级

效果比前代提升超 20%

 

最新的腾讯混元文生图大模型主要进行了算子、语言编码器、多轮绘图能力三方面的升级。

 

首先是架构,该模型从 U-Net 架构升级至 DiT 架构(DiT,即 Diffusion With Transformer),后者也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术。“为构建混元 DiT,腾讯设计了 Transformer 结构、文本编码器和位置编码,构建了完整的数据管道,用于更新和评估数据。”卢清林表示。

 

腾讯混元团队认为,基于 Transformer 架构的扩散模型 (如 DiT)具有更大的可扩展性,很可能成为下一代主流视觉生成架构:未来,DiT 架构很可能会成为文生图、生视频、生 3D 等多模态视觉生成的统一架构。

 

据介绍,从 2023 年 7 月起,腾讯混元文生图团队就明确了基于 DiT 架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型已全面升级为 DiT 架构。

 

其次是语音编码器方面,混元文生图大模型是中文原生的 DiT 模型,具备中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上有良好表现,中文输入后直接中文理解,避免了因翻译产生的语义分歧。

 


目前 Stable Diffusion 等主流开源模型核心数据集以英文为主,对中国的语言、美食、文化、习俗都理解不够,在中文应用场景受限,很多团队还是基于翻译+英文开源 Stable diffusion 模型,导致在中文特有的场景、人物、事物上表现比较差。还有一些团队基于少量的中文数据在一些特殊的场景做了 finetune,让模型去适配某个特殊的领域或者风格,但直接用英文预训练的模型+中文小数据 finetune 也存在对中文理解不足和不通用的问题。

 

腾讯官方的评测结果显示,新一代腾讯混元文生图大模型视觉生成整体效果的相比前代提升超过 20%,在语义理解、画面质感与真实性方面全面提升,在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

 

在 DiT 架构之上,腾讯混元团队还在算法层面优化了模型的长文本理解能力,能够支持最多 256 字符的内容输入,同时实现了多轮生图和对话能力,可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,来达到更满意的效果。

 

填补开源 DiT 架构空白

版本同步现网

 

“我们认为,建设中文原生的文生图开源模型、中文的文生图开源生态十分必要。”据悉,腾讯开源的混元文生图模型 Tencent-Hunyuan-Visual 1.9,与实际生产环境中的最新版本完全一致,包括 C 端用户能体验到的微信小程序和 Web 版本、个人和企业开发者能体验到的云 API 版本,均可免费商用。

 

此次混元文生图模型开源后,开发者及企业无需重头训练,即可直接将其用于推理,并可基于此打造专属的 AI 绘画应用及服务,能够节约大量人力及算力。透明公开的算法,也可以让该模型的安全性和可靠性得到保障。

 

“目前开源社区中技术快速迭代,但缺乏先进、成熟的 DiT 架构可以开源利用。”卢清林表示,在目前 DiT 架构已经呈现出巨大潜力的情况下,开源社区是存在一定空白的。文生图大模型领域的开源开发者生态已经形成,但依然主要基于 U-Net 架构模型进行开发,仍未有比较先进的 DiT 架构充分开源。

 

基于开放、前沿的混元文生图基础模型,有利于在以 Stable Diffusion 等为主的英文开源社区之外,丰富以中文为主的文生图开源生态,形成更多样的原生插件,推动中文文生图技术研发和应用。

 

现在腾讯混元文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型,发布了一站式 AI 广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具。

 

腾讯文生图负责人芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态”

 

据了解,腾讯在开源上一直持开放态度,已开源了超 170 个优质项目,均来源于腾讯真实业务场景,覆盖微信、腾讯云、腾讯游戏、腾讯 AI、腾讯安全等核心业务板块,目前在 Github 上已累计获得超 47 万开发者关注及点赞。

 

2024-05-14 19:196787

评论

发布
暂无评论
发现更多内容

web技术分享| webRTC 媒体流录制

anyRTC开发者

音视频 WebRTC 流媒体 web技术 流媒体录制

如何借助腾讯云简单、高效移动开发

腾讯云数据库

数据库 tdsql

王者荣耀商城异地多活分析-模块7

小牧ah

架构实战营

【Flutter 专题】52 图解可折叠状态栏

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 9月日更

华为云GuassDB(for Redis)发布全新版本,两大核心特性正式亮相

华为云开发者联盟

数据库 华为云 GuassDB(for Redis) Lua脚本 SSL连接加密

1ms的时延,10Gbps速率…5G通信技术解读

华为云开发者联盟

5G 物联网 通信 网络架构 网络切片

《联想发布绿色智城解决方案,加速城市绿色低碳转型发展》

科技大数据

【OpenIM原创】C/C++调用golang函数,golang回调C/C++函数

OpenIM

华云大咖说 | 华云数据企业开发测试平台解决方案

华云数据

【架构训练营】模块七作业

zclau

新来的前端小姐姐问:Vue路由history模式刷新页面出现404问题

华为云开发者联盟

node.js Vue hash 404 history 模式

ThreadLocal在链路性能测试中实践

FunTester

多线程 ThreadLocal 性能测试 线程安全 FunTester

飞桨中国行走进成都 与当地企业共话制造智能化升级

百度大脑

人工智能 飞桨

TDSQL-A,全力应对海量数据实时分析需求

腾讯云数据库

数据库 tdsql

干货 | TDSQL-A核心架构揭秘

腾讯云数据库

数据库 tdsql

springboot vue二手交易市场毕设源码

清风

毕业设计

月薪10K码农,跳槽到40K架构师,技术学习路线图汇总

小傅哥

Java 学习 运维 大前端 后端

2021 Atlassian 大中华区用户大会来袭!

Atlassian

DevOps 敏捷 Atlassian Jira 敏捷精益

腾讯私有云MySQL解决方案—TDSQL

腾讯云数据库

数据库 tdsql

手撸二叉树之二叉树的直径

HelloWorld杰少

九月

一年数十万次实验背后的架构与数据科学

百度Geek说

人工智能 架构 数据科学

资深Linux系统管理员常用的15个很好用的Cron工作示例

华为云开发者联盟

Linux Linux Cron 工作示例 应用程序 工作调度

企业为什么要建设自有即时通讯软件系统

BeeWorks

阅读

Kubernetes生态系统与演进路线

博文视点Broadview

缓存和数据库一致性问题,看这篇就够了

Kaito

数据库 redis 缓存 后端 一致性

TDSQL Inside:从腾讯的分布式数据库能力到行业的能力

腾讯云数据库

数据库 tdsql

【LeetCode】检查平衡性Java题解

Albert

算法 LeetCode 9月日更

西部首个国家级车联网先导区获批,EMQ 联手中国移动打造 5G 交通生态链

EMQ映云科技

自动驾驶 车联网 5G 移动 emq

「免费开源」基于Vue和Quasar的前端SPA项目crudapi后台管理系统实战之模块管理(十四)

crudapi

Vue API crud crudapi qusar

架构实战营 - 模块 7 - 王者荣耀商城异地多活架构设计

雪中亮

架构实战营 #架构实战营

C#多线程开发-任务并行库04

Andy阿辉

C# asp.net 多线程 多线程并发

腾讯文生图大模型全面开源!首个中文原生DiT架构,支持中英双语理解生成_生成式 AI_华卫_InfoQ精选文章