产品战略专家梁宁确认出席AICon北京站,分享AI时代下的商业逻辑与产品需求 了解详情
写点什么

全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens

  • 2023-09-07
    北京
  • 本文字数:1055 字

    阅读完需:约 3 分钟

大小:564.16K时长:03:12
全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超2万亿tokens

9 月 7 日,2023 腾讯全球数字生态大会上,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生正式发布全链路自研的通用大语言模型:混元大模型。混元大模型具备强大的中文创作能力、复杂语境下的逻辑推理能力,以及可靠的任务执行能力。


汤道生表示:“以大模型生成技术为核心,人工智能正在成为下一轮数字化发展的关键动力,也为解决产业痛点带来了全新的思路。大模型需要基于产业场景,与企业数据融合,才能释放出最大的价值。”

 

据悉,腾讯混元大模型参数规模超千亿,预训练语料超 2 万亿 tokens,当前版本的知识截止到 2023 年 7 月。混元大模型基于 Transformer,首先进行大规模自监督预训练,之后进行有监督精调,最后通过强化学习进行优化,同时具有一定调用外部插件工具的能力。

 

混元大模型推理能力展示

 

腾讯集团副总裁蒋杰表示,开源大模型并不适应腾讯海量高并发场景,自研才能完全掌握技术内核,将大模型更好地融入到腾讯的技术栈中。据悉,混元大模型以腾讯强大的算力基础设施为基础,腾讯掌握从模型算法到机器学习框架再到 AI 基础设施的全链路自研技术,包括从大规模、高质量、多样化的语料库,到创新的大模型算法,再到自研 Angel 机器学习框架和创新性的训练方法等研发能力。

 

针对大模型容易“胡言乱语”的问题,腾讯通过自研“探真”算法进行事实修正,让混元大模型的幻觉相比主流开源大模型降低了 30%-50%;通过强化学习的方法,让模型学会识别陷阱问题,对安全诱导问题的拒答率提高了 20%;通过位置编码优化,提高了超长文的处理效果和性能;提出思维链的新策略,强化模型对问题拆解和分布思考的趋向,让大模型能够像人一样结合实际的应用场景进行推理和决策。此外,腾讯还自研了机器学习框架 Angel,使训练速度相比业界主流框架提升 1 倍,推理速度比业界主流框架提升 1.3 倍。

 

混元大模型测评数据

 

蒋杰表示,混元大模型已经成为腾讯的业务底座。目前,腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ 浏览器等 50 多个腾讯内部业务和产品,已经接入腾讯混元大模型测试并取得初步效果。

 

 

混元大模型在腾讯文档的应用示范

 

据了解,混元大模型将作为腾讯云 MaaS(Model-as-a-Service)服务的底座,客户不仅可以直接通过 API 调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用。

 

据悉,从 2018 年开始,腾讯开始探索大模型相关技术,先后推出了多个千万/亿参数大模型:2019 年,腾讯推出了广告推荐 MoE 大模型,单模型参数超千亿;2021 年,腾讯推出了千亿规模的 NLP 大模型;2022 年,腾讯推出万亿参数的 NLP 稀疏大模型。

 

2023-09-07 11:215558

评论

发布
暂无评论
发现更多内容

iOS MachineLearning 系列(17)—— 几个常用的对象识别 CoreML 模型

珲少

2023年Java学习步骤及路线(超详细)

Java你猿哥

Java 微服务 Spring Boot JVM java面试

人工智能将如何改变敏捷项目管理?

敏捷开发

人工智能 项目管理 AI 敏捷开发 Scrum Master

如何使用Go实现原型设计模式

Jack

golang 设计模式 架构设计 golang 面试

软件测试 | FTP性能测试脚本开发(1)

测吧(北京)科技有限公司

测试

开源模式新探索!卡奥斯工业互联网开源开放社区再升级

Openlab_cosmoplat

开源 工业互联网 天工开物

救命稻草!阿里P8耗时5月打造的架构师速成手册,千金难求

Java你猿哥

程序员 ssm 软件架构 架构设计 架构师

即时通讯(IM)开源项目OpenIM对WebAssembly支持,提升web端体验

Geek_1ef48b

开源赋能 普惠未来|OpenNJet诚邀您参与2023开放原子全球开源峰会

开放原子开源基金会

为什么 HashMap 会死循环?

javacn.site

DDD在前端应用中的一些思考

阿里技术

前端 DDD

文档图像智能分析与处理:CCIG技术论坛的思考与展望

海拥(haiyong.site)

大模型 文档图像智能处理 OCR技术

JavaScript作用域深度剖析:动态作用域

Immerse

LDAP性能测试脚本开发

测吧(北京)科技有限公司

测试

逆流而上!整合阿里高频考点2023Java岗面试突击指南手册首次亮相

Java你猿哥

Java MySQL redis ssm java面试

软件测试 | FTP性能测试脚本开发(2)

测吧(北京)科技有限公司

测试

开源赋能 普惠未来|QUICKPOOL诚邀您参与2023开放原子全球开源峰会

开放原子开源基金会

开源

名侦探白洞(一):智能家居灵异事件

白洞计划

AI

PoseiSwap:为何青睐 Layer3?又为何选择 Celestia 作为技术伙伴?

股市老人

记一次redis主从切换导致的数据丢失与陷入只读状态故障

Java你猿哥

redis sentinel ssm 高可用架构

TLS 加速技术:Intel QuickAssist Technology(QAT)解决方案

vivo互联网技术

TLS 加速 Intel QAT

单机 T 级流量转发吞吐提升 5 倍,可编程负载均衡网关 1.0 上线

百度Geek说

云计算 负载均衡 企业号 5 月 PK 榜

2023-05-22:给定一个长度为 n 的字符串 s ,其中 s[i] 是: D 意味着减少; I 意味着增加。 有效排列 是对有 n + 1 个在 [0, n] 范围内的整数的一个排列 perm

福大大架构师每日一题

Go 算法 rust 福大大

C/C++项目构建指南:如何使用Makefile提高开发效率

小万哥

c++ 程序员 面试 后端 开发

面试官:你能和我说一下 CMS 垃圾回收器吗?

Java你猿哥

Java 算法 CMS 垃圾回收器 垃圾收集器

SpringWeb服务构建轻量级Web技术体系:SpringHATEOAS

Java你猿哥

Java spring RESTful Web ssm

上海国家会计学院刘梅玲:事项法会计可以有力地促进业财融合

用友BIP

业财融合 事项法会计

PoseiSwap:为何青睐 Layer3?又为何选择 Celestia 作为技术伙伴?

西柚子

AIGC产业研究报告2023——分子发现与电路设计篇

易观分析

产业 AIGC

Java开发分析用什么软件好?

真大的脸盆

Mac JAVA开发 Mac 软件 Java开发分析工具

全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超2万亿tokens_腾讯_褚杏娟_InfoQ精选文章