AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

腾讯大模型 APP 真实测评!七家国产大模型“battle”,元宝顶得住吗?

  • 2024-05-31
    北京
  • 本文字数:2286 字

    阅读完需:约 8 分钟

大小:1.16M时长:06:46
腾讯大模型APP真实测评!七家国产大模型“battle”,元宝顶得住吗?

作者 | 华卫

 

“腾讯做大模型不争一时之先。”

 

5 月 30 日,腾讯基于混元大模型的 App“腾讯元宝”正式上线,苹果及安卓应用商店均可下载。腾讯云副总裁、腾讯混元大模型负责人刘煜宏表示:“过去的一年,我们持续推进腾讯混元大模型的能力爬坡,希望腾讯元宝最终服务于每个普通人的生活。”

 

相比此前测试阶段的混元小程序版本,面向工作效率场景,腾讯元宝提供了 AI 搜索、AI 总结、AI 写作等核心能力;面向日常生活场景,元宝提供了多个特色 AI 应用,并新增了创建个人智能体等玩法。

 

那么,这些功能的实际表现到底如何呢?

 

拿到腾讯元宝的体验资格后,我们马上逐一试用了它的亮点功能,并特别针对文生图和 AI 写作方面,通过同题多解的方式,将其与多个国内知名的大模型进行了对比和评估。

 

创作效果:有提升潜力

 

首先,来直击一下元宝与各大模型“battle”的实况。

 

  • 文生图

 

在这一功能上,我们选择了百度文心一格、阿里通义万相、讯飞星火、美图 MiracleVision 4.0 、字节跳动豆包五个模型对比效果,对他们的理解和内容生成能力逐一进行了测评。另外,考虑到涉及的这些大模型都源自国产,我们特意选取了中国文言文作为输入素材,以此来考察它们在处理本国语言古典文本上的能力。

 

从生成图中所涵盖各实体元素的完整程度和整体画面的协调性来说,元宝的表现是排在前列的。

 

提示词为:林中有寿鹿仙狐,树上有灵禽玄鹤。瑶草奇花不谢,青松翠柏长春。仙桃常结果,修竹每留云。一条涧壑藤萝密,四面原堤草色新。

 

生成结果如下:

(从左到右分别是元宝、豆包、讯飞星火、美图 MiracleVision 4.0、文心一格的输出结果)

 


(通义万相的输出结果)

 

  • AI 写作

 

据介绍,在 AI 写作方面,元宝不仅支持多轮问答,还能够将对话的内容整理成报告,按照要求进行结构化输出。这一功能上,我们将其与文心一言、通义千问、Kimi、豆包四个模型对比效果。

 

以测评案例来看,相较而言,腾讯元宝的生成内容展现出了包含起承转合的完整情节,故事框架也已具备雏形,但语句间的逻辑衔接略显生硬、人物描写也较为生涩。

 

提示词:唐僧师徒四人穿越到现代后的第一天,会发生什么故事?写一个 300 字左右的小故事。

 

元宝的生成结果如下:

 

可以小夸一下的是,元宝留意到了唐僧师徒四人需要吃素的人物细节,在人设和故事设定方面理解得还不错。



再看豆包的生成结果,其语句结构明显更为成熟了,各个段落环节之间衔接得也比较自然。

 


到文心一言这里,无论语句组织还是文字逻辑,都展现出不错的效果。

 


而 Kimi 和通义千问的生成结果,开始呈现出更显著的变化。除语句构造外,整个故事的人物设定、叙事角度、情节架构都更加立体,并都在结尾处给读者构建了一个引人入胜的虚构世界。

 


(Kimi 的输出结果)

 


(通义千问的输出结果)

 

效率、娱乐方面:表现不俗

 

当前,大模型仍在快速发展期,从模型能力到应用落地都存在较大“时延”。数据显示,当前人们使用大模型相关产品时,有超过 65%的需求,集中在工作/学习效率场景,但相关的 AI 产品解决方案尚不成熟。针对效率场景的三大核心需求:信息获取、处理和生产,腾讯元宝均进行了产品化探索。

 

  • AI 搜索

 

AI 搜索方面,腾讯元宝接入了微信搜一搜、搜狗搜索等搜索引擎,并通过 AI 搜索增强,提升时新类和知识类问题效果,比传统搜索更有效率;同时,内容覆盖微信公众号等腾讯生态内容及互联网权威信源,答案准确性更高;此外,元宝还会提供所引用的参考资料,并给出相关推荐,方便快速溯源及延伸阅读。

 

我们输入一个近日引发热议的美国 AI 禁令问题:如何看待中国人被限制在美从事 AI 相关工作?

生成结果如下:

 

  • AI 总结

 

AI 总结方面,无论是希望快速了解一本书或是一个新领域,还是处理复杂繁冗的报告、文献,元宝都能帮上忙。据介绍,元宝可上传最多 10 个 PDF、word、txt 等多种格式的文档,并能够一次性解析多个微信公众号链接、网址,支持 256K 的原生窗口上下文。

 

例如,我们输入:请总结一下 AI 前线公众号这一年来的内容输出亮点。

 

生成结果如下:

 

 

除了满足效率需要,腾讯元宝在日常生活场景,也提供了丰富的应用及玩法,包括百变 AI 头像、口语陪练、超能翻译官等,均免费开放。同时,元宝也支持用户根据个性化需求,快速创建个人专属的智能体,赋予角色设定,或让 AI 自动生成智能体相关信息,并复刻自己的音色。结合腾讯生态场景,元宝还将于近期推出腾讯新闻哥、《庆余年》主题等特色智能体。

 

视频、3D 生成功能后续上线

 

腾讯元宝产品能力升级的背后,是混元底层模型的持续迭代。

 

自 2023 年 9 月首次亮相以来,腾讯混元大模型的参数规模已从千亿升级至万亿,预训练语料从万亿升级至 7 万亿 tokens,并率先升级为多专家模型结构(MoE),整体性能相比 Dense 版本提升超 50%。除不断提升通用大模型能力外,腾讯混元也支持角色扮演、FunctionCall、代码生成等领域能力,数理能力提升 50 %。

 

在多模态方面,腾讯混元文生图大模型是业内首个中文原生 DiT 架构模型,采用了 Sora、Stable Diffusion 3 等行业顶尖产品的同款架构,生成效果相比上代提升超 20%。目前,该模型已经全面开源,在 Github 获得 2000+star,相关能力也全面融入腾讯元宝。

 

此外,腾讯混元大模型在视频、3D 生成等方面也持续探索,目前已经支持 16s 视频生成,单图仅需 30 秒即可生成 3D 模型,相关能力也将于后续在元宝中上线。

 

目前,腾讯内部有超 600 个业务及场景都已经接入腾讯混元,腾讯广告、微信读书、腾讯会议、腾讯文档、腾讯客服等,都已经基于混元实现了智能化升级。据了解,为了满足开发者及企业客户对于通用模型能力的需求,腾讯混元大模型已通过腾讯云对外开放,可通过 API 调用,也可以作为基底模型,为不同产业场景构建专属应用。

2024-05-31 17:539653

评论

发布
暂无评论
腾讯大模型APP真实测评!七家国产大模型“battle”,元宝顶得住吗?_生成式 AI_华卫_InfoQ精选文章