腾讯大模型APP真实测评！七家国产大模型“battle”，元宝顶得住吗？

作者 | 华卫

“腾讯做大模型不争一时之先。”

5 月 30 日，腾讯基于混元大模型的 App“腾讯元宝”正式上线，苹果及安卓应用商店均可下载。腾讯云副总裁、腾讯混元大模型负责人刘煜宏表示：“过去的一年，我们持续推进腾讯混元大模型的能力爬坡，希望腾讯元宝最终服务于每个普通人的生活。”

相比此前测试阶段的混元小程序版本，面向工作效率场景，腾讯元宝提供了 AI 搜索、AI 总结、AI 写作等核心能力；面向日常生活场景，元宝提供了多个特色 AI 应用，并新增了创建个人智能体等玩法。

那么，这些功能的实际表现到底如何呢？

拿到腾讯元宝的体验资格后，我们马上逐一试用了它的亮点功能，并特别针对文生图和 AI 写作方面，通过同题多解的方式，将其与多个国内知名的大模型进行了对比和评估。

创作效果：有提升潜力

首先，来直击一下元宝与各大模型“battle”的实况。

文生图

在这一功能上，我们选择了百度文心一格、阿里通义万相、讯飞星火、美图 MiracleVision 4.0 、字节跳动豆包五个模型对比效果，对他们的理解和内容生成能力逐一进行了测评。另外，考虑到涉及的这些大模型都源自国产，我们特意选取了中国文言文作为输入素材，以此来考察它们在处理本国语言古典文本上的能力。

从生成图中所涵盖各实体元素的完整程度和整体画面的协调性来说，元宝的表现是排在前列的。

提示词为：林中有寿鹿仙狐，树上有灵禽玄鹤。瑶草奇花不谢，青松翠柏长春。仙桃常结果，修竹每留云。一条涧壑藤萝密，四面原堤草色新。

生成结果如下：

（从左到右分别是元宝、豆包、讯飞星火、美图 MiracleVision 4.0、文心一格的输出结果）

（通义万相的输出结果）

AI 写作

据介绍，在 AI 写作方面，元宝不仅支持多轮问答，还能够将对话的内容整理成报告，按照要求进行结构化输出。这一功能上，我们将其与文心一言、通义千问、Kimi、豆包四个模型对比效果。

以测评案例来看，相较而言，腾讯元宝的生成内容展现出了包含起承转合的完整情节，故事框架也已具备雏形，但语句间的逻辑衔接略显生硬、人物描写也较为生涩。

提示词：唐僧师徒四人穿越到现代后的第一天，会发生什么故事？写一个 300 字左右的小故事。

元宝的生成结果如下：

可以小夸一下的是，元宝留意到了唐僧师徒四人需要吃素的人物细节，在人设和故事设定方面理解得还不错。

再看豆包的生成结果，其语句结构明显更为成熟了，各个段落环节之间衔接得也比较自然。

到文心一言这里，无论语句组织还是文字逻辑，都展现出不错的效果。

而 Kimi 和通义千问的生成结果，开始呈现出更显著的变化。除语句构造外，整个故事的人物设定、叙事角度、情节架构都更加立体，并都在结尾处给读者构建了一个引人入胜的虚构世界。

（Kimi 的输出结果）

（通义千问的输出结果）

效率、娱乐方面：表现不俗

当前，大模型仍在快速发展期，从模型能力到应用落地都存在较大“时延”。数据显示，当前人们使用大模型相关产品时，有超过 65%的需求，集中在工作/学习效率场景，但相关的 AI 产品解决方案尚不成熟。针对效率场景的三大核心需求：信息获取、处理和生产，腾讯元宝均进行了产品化探索。

AI 搜索

AI 搜索方面，腾讯元宝接入了微信搜一搜、搜狗搜索等搜索引擎，并通过 AI 搜索增强，提升时新类和知识类问题效果，比传统搜索更有效率；同时，内容覆盖微信公众号等腾讯生态内容及互联网权威信源，答案准确性更高；此外，元宝还会提供所引用的参考资料，并给出相关推荐，方便快速溯源及延伸阅读。

我们输入一个近日引发热议的美国 AI 禁令问题：如何看待中国人被限制在美从事 AI 相关工作？

生成结果如下：

AI 总结

AI 总结方面，无论是希望快速了解一本书或是一个新领域，还是处理复杂繁冗的报告、文献，元宝都能帮上忙。据介绍，元宝可上传最多 10 个 PDF、word、txt 等多种格式的文档，并能够一次性解析多个微信公众号链接、网址，支持 256K 的原生窗口上下文。

例如，我们输入：请总结一下 AI 前线公众号这一年来的内容输出亮点。

生成结果如下：

除了满足效率需要，腾讯元宝在日常生活场景，也提供了丰富的应用及玩法，包括百变 AI 头像、口语陪练、超能翻译官等，均免费开放。同时，元宝也支持用户根据个性化需求，快速创建个人专属的智能体，赋予角色设定，或让 AI 自动生成智能体相关信息，并复刻自己的音色。结合腾讯生态场景，元宝还将于近期推出腾讯新闻哥、《庆余年》主题等特色智能体。

视频、3D 生成功能后续上线

腾讯元宝产品能力升级的背后，是混元底层模型的持续迭代。

自 2023 年 9 月首次亮相以来，腾讯混元大模型的参数规模已从千亿升级至万亿，预训练语料从万亿升级至 7 万亿 tokens，并率先升级为多专家模型结构（MoE），整体性能相比 Dense 版本提升超 50%。除不断提升通用大模型能力外，腾讯混元也支持角色扮演、FunctionCall、代码生成等领域能力，数理能力提升 50 %。

在多模态方面，腾讯混元文生图大模型是业内首个中文原生 DiT 架构模型，采用了 Sora、Stable Diffusion 3 等行业顶尖产品的同款架构，生成效果相比上代提升超 20%。目前，该模型已经全面开源，在 Github 获得 2000+star，相关能力也全面融入腾讯元宝。

此外，腾讯混元大模型在视频、3D 生成等方面也持续探索，目前已经支持 16s 视频生成，单图仅需 30 秒即可生成 3D 模型，相关能力也将于后续在元宝中上线。

目前，腾讯内部有超 600 个业务及场景都已经接入腾讯混元，腾讯广告、微信读书、腾讯会议、腾讯文档、腾讯客服等，都已经基于混元实现了智能化升级。据了解，为了满足开发者及企业客户对于通用模型能力的需求，腾讯混元大模型已通过腾讯云对外开放，可通过 API 调用，也可以作为基底模型，为不同产业场景构建专属应用。

创作场景

腾讯大模型 APP 真实测评！七家国产大模型“battle”，元宝顶得住吗？

创作效果：有提升潜力

效率、娱乐方面：表现不俗