写点什么

腾讯做大模型:要拼技术细节、用内部业务“磨刀”

  • 2023-09-12
    北京
  • 本文字数:1926 字

    阅读完需:约 6 分钟

大小:1.03M时长:06:01
腾讯做大模型:要拼技术细节、用内部业务“磨刀”

腾讯混元大模型从第一个 token 开始从零训练。”腾讯集团副总裁蒋杰说道。9 月 7 日,腾讯正式对外开放了全链路自研的通用大模型——混元大模型,这也意味着腾讯正式加入了“百模大战”之中。

 

在已经有首批 8 家企业机构的大模型产品通过《生成式人工智能服务管理暂行办法》备案准备正式上线开放后,腾讯的通用大模型才刚刚发布,这个时间并不算早。那么,腾讯的大模型之路将如何走下去?

做大模型要“拼细节”

 

“混元”不是腾讯推出的第一个大模型。从 2018 年开始探索大模型相关技术,腾讯先后推出了多个千万/亿参数大模型:2021 年-2022 年推出了多个千亿和万亿参数规模的大模型。

 

腾讯混元大模型平台架构、模型、算法能力等整个体系都是纯自研的,而构建腾讯混元的技术能力都得益于这些年大模型能力的积累。像今天的锯齿状注意力、探真等都是技术循序渐进的产物。

 

“现在国内外有很多开源的大模型,很多企业也是基于开源模型来做,但是如果不从头自研的话,就没办法完全掌握这个技术。”蒋杰说道。

 

腾讯对大模型的期望是先给企业内部业务带来突破,这要求大模型必须更好融入到腾讯的技术栈中,但很多开源架构并不适合腾讯业务场景。比如,幻觉是每一个大模型厂商都会面临的重要问题,业内普遍会用知识图谱甚至搜索外挂让大模型的检索支持能力变得更强,但是这些方式不适用腾讯的场景占比很高,于是腾讯使用了自研的“探真”技术来降低幻觉出现的比例。

 

混元大模型目前还是聚焦在国内市场,中文创作是其主要攻破的能力之一,支持文学创作、文本摘要、角色扮演等。通用大模型的逻辑推理能力非常关键,而大模型如何可靠地执行是腾讯最关注的。

 

混元大模型拥有超千亿参数规模,预训练语料超 2 万亿 tokens。腾讯的内容产品为混元大模型提供了大规模、高质量、多样化的语料库,混元大模型能从中学习到各类应用场景中丰富的语言知识和语境理解能力。

 

面对海量数据,腾讯使用了 AngelPTM 训练框架,优化算法,改进了注意力机制。而在逻辑推理方面,腾讯则使用了 AngelHCF 推理框架,开发了思维链(Chain-of-Thought,CoT)新算法。腾讯表示,通过自研机器学习框架 Angel 使训练速度相比业界主流框架提升 1 倍,推理速度比业界主流框架提升 1.3 倍。

 

注:思维链指的是一系列有逻辑关系的思考步骤形成一个完整的思考过程,用的是离散式 token,能自动构建问题、推理步骤和样例。但思维链必须在模型规模足够大时才能涌现。

 

在蒋杰看来,业内做强化学习的方法大体相似,腾讯要做的就是“拼细节”。“未来几个头部厂商大模型的评分可能仅仅是 1 分、2 分的差距,这个厂家版本高 1 分,另外厂家的下一个版本就会比它再高 1 分,就是这样一个不断博弈和循序渐进的过程。而大家投入的资源不一样、抠的细节不一样,大模型的差异才会最终显露出来。” 

先做内部业务的“倍增器”

 

在通用大模型上,腾讯确实走得不急。腾讯强调,研发大模型的目标不是在评测上获得高分,而是将技术应用到实际场景中。腾讯 6 月份发布行业大模型后,一直努力将能力拓展到更多领域,腾讯内部的海量业务场景也成了混元大模型的“磨刀石”。

 

众所周知,腾讯业务特别广泛,混元大模型能在内部各种场景上很好地应用就很不容易。比如,to C 的腾讯会议、腾讯文档在使用大模型时就有很大的差异。混元大模型的文字总结能力能与文档环境天然很好地结合,但会议场景强实时交互,需要会议团队和混元团队一起探索如何将混元大模型的基础指令理解能力、文字总结能力与会议内容生成结合起来。

 

“像会议、文档这样的场景,单纯将一个大模型直接融合进去短期内不一定能够给业务带来很大提升,因此一定要针对具体的业务需求做专门优化和提效,才能达到更好的效果。”腾讯机器学习平台部副总经理王迪说道。



在腾讯看来,提效是大模型更有商业价值的地方,腾讯希望混元大模型成为业务的“倍增器”。

 

目前,腾讯内部所有的应用都会基于混元大模型做智能化研发,混元大模型将作为基础设施去支持腾讯的各种产品和应用能力。腾讯会议基于腾讯混元大模型打造了 AI 小助手,只需要简单的自然语言指令,就能完成会议信息提取、内容分析等复杂任务,会后还能生成智能总结纪要。混元大模型支持数十种文本创作场景,在腾讯文档推出的智能助手功能中已有应用。

 

与之前技术产品的商业化路径相似,腾讯大模型也会先服务腾讯内部业务,然后再通过腾讯云对外开放,服务外部客户。

结束语

 

在蒋杰看来,大模型的天花板现在还没有完全碰触到的技术体系和演进上,行业不仅需要技术突破,还需要语料的完整度、数据的标注能力、后续的纠错能力等,单点的技术突破无法带来大模型的最终效果。

 

“未来,混元大模型还要做更多的数据标注、更多的框架、训练更多的数据,这才是我们团队工作的真正核心。”蒋杰说道,“腾讯混元永远在路上。”

 

2023-09-12 17:285099

评论 1 条评论

发布
用户头像
到底做了点啥,这啥也没说,忽悠人呢吧
2023-09-14 09:48 · 北京
回复
没有更多了
发现更多内容

我和 TiDB 的故事 | TiDB 对我不离不弃,我亦如此

TiDB 社区干货传送门

人物访谈

Google Cloud X Kyligence|如何从业务视角管理数据湖?

Kyligence

数据湖 智能多维数据库

从通信延伸到全行业,亚信科技AntDB 7.0蓄势待发

亚信AntDB数据库

AntDB 国产数据库 aisware antdb

你真的了解Redis的持久化机制吗?

C++后台开发

数据库 redis 后端开发 C/C++后台开发 C/C++开发

官宣,又一上市公司杀入数据库市场

亚信AntDB数据库

AntDB 国产数据库 aisware antdb

TiCDC迁移-TiDB到MySQL测试

TiDB 社区干货传送门

管理与运维

StarRocks 2.3 新版本特性介绍

StarRocks

【堡垒机小知识】硬件堡垒机是什么意思?其与云堡垒机有什么区别?

行云管家

云计算 网络安全 数据安全 堡垒机 云堡垒机

面试?进大厂?还得靠这份Java面试指导手册

王小凡

Java 面试 JVM Java多线程 秋招

关于数字化转型 你需要知道的八项指导原则

BeeWorks

不会多线程还想进BAT?精选19道多线程面试题,有答案边看边学

程序知音

Java 多线程 面试题 后端技术 BAT面试题

SQL 开始日期、结束日期查询

孙永潮

即时通讯-改变社交与工作状态的新型软件

BeeWorks

突破性能天花板!亚信数据库支撑 10 多亿用户,峰值每秒百万交易

亚信AntDB数据库

AntDB 国产数据库 aisware antdb

大模型轻量化实践路径

澜舟孟子开源社区

人工智能 自然语言处理 神经网络 深度学习 预训练模型

今天拿SpringAOP和自定义注解的通用性开🔪

知识浅谈

切面编程 7月月更

兆骑科创赛事活动承办,项目路演,人才引进平台

兆骑科创凤阁

数字孪生万物可视 |联接现实世界与数字空间

华为云开发者联盟

云计算 大数据 后端 智慧城市 数字孪生

TiDB升级与案例分享(TiDB v4.0.1 → v5.4.1)

TiDB 社区干货传送门

实践案例 版本升级 集群管理 管理与运维

APP为什么用JSON协议与服务端交互:序列化相关知识

程序员啊叶

Java 编程 程序员 架构 java面试

新四化时代来袭,亚马逊云科技赋能汽车行业加速创新

Lily

基于Flink CDC打通数据实时入湖

数据社

签约计划第三季

【7.22-7.29】写作社区精彩技术博文回顾

InfoQ写作社区官方

优质创作周报

手摸手实现Canal如何接入MySQL实现数据写操作监听

知识浅谈

MySQ 7月月更

深圳见!云原生加速应用构建专场:来看云原生 FinOps、SRE、高性能计算场景最佳实践

阿里巴巴云原生

阿里云 云原生 峰会

文档贡献与写作必读-OpenHarmony开发者文档风格指南

OpenHarmony开发者

Open Harmony

我和 TiDB 的故事 | 缘份在,那就终是能相遇的

TiDB 社区干货传送门

人物访谈 社区活动

容器化 | 在 Rancher 中部署 MySQL 集群

RadonDB

MySQL 开源 容器化 rancher RadonDB

兆骑科创海外高层次人才引进平台,企业项目对接,赛事活动路演

兆骑科创凤阁

数据中台建设(四):企业构建数据中台评估

Lansonli

大数据 数据中台 7月月更

一文读懂Elephant Swap,为何为ePLATO带来如此高的溢价?

西柚子

腾讯做大模型:要拼技术细节、用内部业务“磨刀”_腾讯_褚杏娟_InfoQ精选文章