写点什么

全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens

  • 2023-09-07
    北京
  • 本文字数:1055 字

    阅读完需:约 3 分钟

大小:564.16K时长:03:12
全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超2万亿tokens

9 月 7 日,2023 腾讯全球数字生态大会上,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生正式发布全链路自研的通用大语言模型:混元大模型。混元大模型具备强大的中文创作能力、复杂语境下的逻辑推理能力,以及可靠的任务执行能力。


汤道生表示:“以大模型生成技术为核心,人工智能正在成为下一轮数字化发展的关键动力,也为解决产业痛点带来了全新的思路。大模型需要基于产业场景,与企业数据融合,才能释放出最大的价值。”

 

据悉,腾讯混元大模型参数规模超千亿,预训练语料超 2 万亿 tokens,当前版本的知识截止到 2023 年 7 月。混元大模型基于 Transformer,首先进行大规模自监督预训练,之后进行有监督精调,最后通过强化学习进行优化,同时具有一定调用外部插件工具的能力。

 

混元大模型推理能力展示

 

腾讯集团副总裁蒋杰表示,开源大模型并不适应腾讯海量高并发场景,自研才能完全掌握技术内核,将大模型更好地融入到腾讯的技术栈中。据悉,混元大模型以腾讯强大的算力基础设施为基础,腾讯掌握从模型算法到机器学习框架再到 AI 基础设施的全链路自研技术,包括从大规模、高质量、多样化的语料库,到创新的大模型算法,再到自研 Angel 机器学习框架和创新性的训练方法等研发能力。

 

针对大模型容易“胡言乱语”的问题,腾讯通过自研“探真”算法进行事实修正,让混元大模型的幻觉相比主流开源大模型降低了 30%-50%;通过强化学习的方法,让模型学会识别陷阱问题,对安全诱导问题的拒答率提高了 20%;通过位置编码优化,提高了超长文的处理效果和性能;提出思维链的新策略,强化模型对问题拆解和分布思考的趋向,让大模型能够像人一样结合实际的应用场景进行推理和决策。此外,腾讯还自研了机器学习框架 Angel,使训练速度相比业界主流框架提升 1 倍,推理速度比业界主流框架提升 1.3 倍。

 

混元大模型测评数据

 

蒋杰表示,混元大模型已经成为腾讯的业务底座。目前,腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ 浏览器等 50 多个腾讯内部业务和产品,已经接入腾讯混元大模型测试并取得初步效果。

 

 

混元大模型在腾讯文档的应用示范

 

据了解,混元大模型将作为腾讯云 MaaS(Model-as-a-Service)服务的底座,客户不仅可以直接通过 API 调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用。

 

据悉,从 2018 年开始,腾讯开始探索大模型相关技术,先后推出了多个千万/亿参数大模型:2019 年,腾讯推出了广告推荐 MoE 大模型,单模型参数超千亿;2021 年,腾讯推出了千亿规模的 NLP 大模型;2022 年,腾讯推出万亿参数的 NLP 稀疏大模型。

 

2023-09-07 11:216137

评论

发布
暂无评论
发现更多内容

价值连城 神经网络- 吴恩达Andrew Ng Coursera Neural Networks and Deep Learning John 易筋 ARTS 打卡 Week 58

John(易筋)

ARTS 打卡计划

ELK原来这么简单!《零基础(1)

Java 程序员 后端

Java大厂技术面试题汇总!美团阿里Java程序员晒工资被围观,总结

Java 程序员 后端

Java应用性能优化!Java-进阶:集合框架1

Java 程序员 后端

使用 PolarDB 和 ECS 搭建门户网站

若尘

阿里云 Polar 8月日更

唯品会三年,我只做了5件事,如今跳槽天猫拿下offer(Java岗)

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

香港服务器弹性是企业数字化转型的一个关键方面

九河云安全

现成FIL分币系统介绍|FIL分币平台搭建

Geek_23f0c3

Filecoin fil挖矿 FIL挖矿分币系统

亚信科技AntDB数据库与中科可控、海光公司完成产品兼容认证

亚信AntDB数据库

服务器 国产化 国产芯片 国产数据库 产品兼容性互认

Java基础72问:不搞定HR这3个问题,建议不要轻易跳槽(1)

Java 程序员 后端

关于测试的三个关键问题

QualityFocus

测试 质量 测试文化 测试落地

单元测试:GTest之事件机制(一)

正向成长

测试 测试 单元测试 GTest

真正决定你成败的,是时间管理!

博文视点Broadview

GitHub标星过万!10592字,475行

Java 程序员 后端

全民K歌跨端体系建设

Edwiin

跨端 hippy 全民K歌

直播回顾 | 为什么在开发流程中应用静态代码分析工具?

鉴释

软件开发生命周期 在线研讨会 静态代码分析

【“互联网+”大赛华为云赛道】API命题攻略:厘清三步解题思路,用好开发工具

华为云开发者联盟

API 华为云 modelarts 互联网+ API Explorer

IM之Qunar实现

Qunar技术沙龙

架构 IM 办公 客服 消息

【“互联网+”大赛华为云赛道】CloudIDE命题攻略:明确业务场景,快速开发插件

华为云开发者联盟

ide 开发 插件 华为云 CloudIDE

AI应用说 | 百度专家&行业大咖畅谈AI技术与落地应用

百度大脑

人工智能 开发者 开发

太为难我了,阿里面试了7轮(5年经验,拿下P7岗offer)

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

GitHub标星过万!亦直问JVM(1)

Java 程序员 后端

Java体系化进阶学习图谱:所有帖子的 分类 总结

Java 程序员 后端

Java入门你值得拥有!【Spring Boot 26

Java 程序员 后端

FastApi-02-路径参数

Python研究所

FastApi 8月日更

亏损、退市、卖身...区块链如何挽救影视行业?

旺链科技

区块链 版权保护 影视行业

香港云服务器的性能提升对行业服务带来显著动力

九河云安全

太可惜了,四面字节跳动,我的offer竟被一道“算法题”给拦截了

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

入职字节跳动那一天,我哭了(蘑菇街被裁,奋战7个月拿下offer)

公众号_愿天堂没有BUG

GitHub标星8k!Java虚拟机5大核心知识点

Java 程序员 后端

IBM大面积辞退40岁+的员工,【Spring Boot 1

Java 程序员 后端

全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超2万亿tokens_腾讯_褚杏娟_InfoQ精选文章