HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

腾讯文生图大模型全面开源!首个中文原生 DiT 架构,支持中英双语理解生成

  • 2024-05-14
    北京
  • 本文字数:2023 字

    阅读完需:约 7 分钟

大小:1.00M时长:05:50
腾讯文生图大模型全面开源!首个中文原生DiT架构,支持中英双语理解生成

作者 | 华卫


5 月 14 日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

开源代码库链接: https://github.com/Tencent/HunyuanDiT

 

“混元 DiT 开源的价值主要有两方面,一是作为中文原生 DiT 架构,弥补了开源社区的空白;二是混元 DiT 为全面开源,与现网版本完全一致。”腾讯混元文生图负责人卢清林表示。

 


据介绍,这是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解,参数量 15 亿。升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。其评测数据显示,新一代的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型。

 

三大能力升级

效果比前代提升超 20%

 

最新的腾讯混元文生图大模型主要进行了算子、语言编码器、多轮绘图能力三方面的升级。

 

首先是架构,该模型从 U-Net 架构升级至 DiT 架构(DiT,即 Diffusion With Transformer),后者也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术。“为构建混元 DiT,腾讯设计了 Transformer 结构、文本编码器和位置编码,构建了完整的数据管道,用于更新和评估数据。”卢清林表示。

 

腾讯混元团队认为,基于 Transformer 架构的扩散模型 (如 DiT)具有更大的可扩展性,很可能成为下一代主流视觉生成架构:未来,DiT 架构很可能会成为文生图、生视频、生 3D 等多模态视觉生成的统一架构。

 

据介绍,从 2023 年 7 月起,腾讯混元文生图团队就明确了基于 DiT 架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型已全面升级为 DiT 架构。

 

其次是语音编码器方面,混元文生图大模型是中文原生的 DiT 模型,具备中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上有良好表现,中文输入后直接中文理解,避免了因翻译产生的语义分歧。

 


目前 Stable Diffusion 等主流开源模型核心数据集以英文为主,对中国的语言、美食、文化、习俗都理解不够,在中文应用场景受限,很多团队还是基于翻译+英文开源 Stable diffusion 模型,导致在中文特有的场景、人物、事物上表现比较差。还有一些团队基于少量的中文数据在一些特殊的场景做了 finetune,让模型去适配某个特殊的领域或者风格,但直接用英文预训练的模型+中文小数据 finetune 也存在对中文理解不足和不通用的问题。

 

腾讯官方的评测结果显示,新一代腾讯混元文生图大模型视觉生成整体效果的相比前代提升超过 20%,在语义理解、画面质感与真实性方面全面提升,在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

 

在 DiT 架构之上,腾讯混元团队还在算法层面优化了模型的长文本理解能力,能够支持最多 256 字符的内容输入,同时实现了多轮生图和对话能力,可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,来达到更满意的效果。

 

填补开源 DiT 架构空白

版本同步现网

 

“我们认为,建设中文原生的文生图开源模型、中文的文生图开源生态十分必要。”据悉,腾讯开源的混元文生图模型 Tencent-Hunyuan-Visual 1.9,与实际生产环境中的最新版本完全一致,包括 C 端用户能体验到的微信小程序和 Web 版本、个人和企业开发者能体验到的云 API 版本,均可免费商用。

 

此次混元文生图模型开源后,开发者及企业无需重头训练,即可直接将其用于推理,并可基于此打造专属的 AI 绘画应用及服务,能够节约大量人力及算力。透明公开的算法,也可以让该模型的安全性和可靠性得到保障。

 

“目前开源社区中技术快速迭代,但缺乏先进、成熟的 DiT 架构可以开源利用。”卢清林表示,在目前 DiT 架构已经呈现出巨大潜力的情况下,开源社区是存在一定空白的。文生图大模型领域的开源开发者生态已经形成,但依然主要基于 U-Net 架构模型进行开发,仍未有比较先进的 DiT 架构充分开源。

 

基于开放、前沿的混元文生图基础模型,有利于在以 Stable Diffusion 等为主的英文开源社区之外,丰富以中文为主的文生图开源生态,形成更多样的原生插件,推动中文文生图技术研发和应用。

 

现在腾讯混元文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型,发布了一站式 AI 广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具。

 

腾讯文生图负责人芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态”

 

据了解,腾讯在开源上一直持开放态度,已开源了超 170 个优质项目,均来源于腾讯真实业务场景,覆盖微信、腾讯云、腾讯游戏、腾讯 AI、腾讯安全等核心业务板块,目前在 Github 上已累计获得超 47 万开发者关注及点赞。

 

2024-05-14 19:195980

评论

发布
暂无评论

高性能MySQL实战(一):表结构 | 京东物流技术团队

京东科技开发者

数据库表 表结构设计 企业号 8 月 PK 榜 高性能表

解析BeanDefinitionRegistry与BeanDefinition合并

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 8 月 PK 榜

ChatGPT:引领生成式AI的变革

百度开发者中心

#人工智能 ChatGPT 文心一言

大数据平台需要做等保测评吗?怎么做?

行云管家

大数据 等保 大数据平台 等级保护 等保测评

ChatGPT:生成式AI技术带来的变革

百度开发者中心

自动驾驶 #人工智能 文心一言

[OpenHarmony]一文带你详解芯片--SL8541e-系统性能优化

LAVAL社区小助手

OpenHarmony

在代码世界游走,没几把“锁”防身可不行 | 京东云技术团队

京东科技开发者

分布式锁 java锁 java‘ 企业号 8 月 PK 榜

[OpenHarmony]稳定性专项运作知识地图,一张图带你稳过“万重山”

LAVAL社区小助手

OpenHarmony

ChatGPT:生成式AI的新里程碑

百度开发者中心

#人工智能 ChatGPT 文心一言

Flink资源调度模型

腾讯云大数据

flink

使用 UCS(On-Premises) 管理您的GPU资源池,释放AI大模型算力潜能

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 8 月 PK 榜

解析大规模开发:提升企业级开发效率与质量,加速创新

龙智—DevSecOps解决方案

Atlassian Atlassian 云版 大规模开发

系统架构合理性的思考 | 京东云技术团队

京东科技开发者

架构设计 应用架构 企业号 8 月 PK 榜 架构合理性

ChatGPT:生成式AI引领科学革命

百度开发者中心

#人工智能 ChatGPT 文心一言

使用 Feature Flags 与可观测工具实现数据库灰度迁移

观测云

数据库 可观测性

生成式AI技术的应用与发展

百度开发者中心

文章 #人工智能 ChatGPT 文心一言

[OpenHarmony]效果差、不便捷、无接口,TV项目共建如何避开这些坑?

LAVAL社区小助手

OpenHarmony

生成式AI新机遇:文心一言三大产业应用

百度开发者中心

#人工智能 文心一言

ChatGPT:引领未来智能交互的生成式AI

百度开发者中心

#人工智能 ChatGPT 文心一言

工时管理魔法课堂:如何在Jira中进行项目时间与成本管理?

龙智—DevSecOps解决方案

Jira插件 工时管理 jira工时

逻辑清晰,详解社交源码Android开发SDK

山东布谷网络科技

sdk

hbuilderx打包苹果证书获取步骤

ios开发 Windows证书 ios证书

[OpenHarmony]手把手教你OTA升级开发

LAVAL社区小助手

OpenHarmony

生成式AI与ChatGPT:引领未来智能交互

百度开发者中心

#人工智能 文心一言

云堡垒机英语怎么翻译?它比硬件堡垒机便宜吗?

行云管家

云计算 堡垒机 云堡垒机

mac前端代码编辑神器 sublime text 4中文激活码

mac大玩家j

代码编辑器 Mac软件 前端代码编辑

Spring缓存是如何实现的?如何扩展使其支持过期删除功能? | 京东云技术团队

京东科技开发者

spring Spring Cache 企业号 8 月 PK 榜 spring缓存

浅谈Redis - 热点key问题 | 京东云技术团队

京东科技开发者

redis Redis 热点key 企业号 8 月 PK 榜

6步玩转OpenHarmony标准芯片适配

LAVAL社区小助手

OpenHarmony

腾讯文生图大模型全面开源!首个中文原生DiT架构,支持中英双语理解生成_生成式 AI_华卫_InfoQ精选文章