写点什么

适配更多国产芯片,智谱 AI 推出第三代基座大模型 ChatGLM3

  • 2023-10-28
    北京
  • 本文字数:1105 字

    阅读完需:约 4 分钟

大小:593.52K时长:03:22
适配更多国产芯片,智谱AI推出第三代基座大模型ChatGLM3

2023 年 10 月 27 日,智谱AI于 2023 中国计算机大会(CNCC)上,推出了全自研的第三代基座大模型 ChatGLM3 及相关系列产品,这也是智谱 AI 继推出千亿基座的对话模型 ChatGLM 和 ChatGLM2 之后的又一次重大突破。

 

据悉,此次推出的 ChatGLM3 采用了独创的多阶段增强预训练方法,使训练更为充分。评测显示,在 44 个中英文公开数据集测试中,ChatGLM3 在国内同尺寸模型中排名首位。智谱 AI CEO 张鹏在现场做了新品发布,并实时演示了最新上线的产品功能。

 

通过更丰富的训练数据和更优的训练方案,智谱 AI 推出的 ChatGLM3 性能更加强大。与 ChatGLM2 相比,MMLU 提升 36%、CEval 提升 33%、GSM8K 提升 179% 、BBH 提升 126%。

 

同时,ChatGLM3 瞄向 GPT-4V 本次实现了若干全新功能的迭代升级,包括多模态理解能力的 CogVLM-看图识语义,在 10 余个国际标准图文评测数据集上取得 SOTA;代码增强模块 Code Interpreter 根据用户需求生成代码并执行,自动完成数据分析、文件处理等复杂任务;网络搜索增强 WebGLM-接入搜索增强,能自动根据问题在互联网上查找相关资料并在回答时提供参考相关文献或文章链接。ChatGLM3 的语义能力与逻辑能力得到了极大的增强。

 

ChatGLM3 还集成了自研的 AgentTuning 技术,激活了模型智能体能力,尤其在智能规划和执行方面,相比于 ChatGLM2 提升了 1000% ;开启了国产大模型原生支持工具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等复杂场景。

 

此外,ChatGLM3 本次推出可手机部署的端测模型 ChatGLM3-1.5B 和 ChatGLM3-3B,支持包括 vivo、小米、三星在内的多款手机以及车载平台,甚至支持移动平台上 CPU 芯片的推理,速度可达 20 tokens/s。精度方面 1.5B 和 3B 模型在公开 benchmark 上与 ChatGLM2-6B 模型性能接近。

 

自 2022 年初,智谱 AI 推出的 GLM 系列模型已支持在昇腾、神威超算、海光 DCU 架构上进行大规模预训练和推理。截至目前,智谱 AI 的产品已支持 10 余种国产硬件生态,包括昇腾、神威超算、海光 DCU、海飞科、沐曦曦云、算能科技、天数智芯、寒武纪、摩尔线程、百度昆仑芯、灵汐科技、长城超云等。

 

基于最新的高效动态推理和显存优化技术,ChatGLM3 当前的推理框架在相同硬件、模型条件下,相较于目前最佳的开源实现,包括伯克利大学推出的 vLLM 以及 Hugging Face TGI 的最新版本,推理速度提升了 2-3 倍,推理成本降低一倍,每千 tokens 仅 0.5 分,成本最低。

 

另外,随着 WebGLM 大模型能力的加入,智谱清言也具有了搜索增强能力,可以帮助用户整理出相关问题的网上文献或文章链接,并直接给出答案。此前已发布的 CogVLM 模型则提高了智谱清言的中文图文理解能力,取得了接近 GPT-4V 的图片理解能力,它可以回答各种类型的视觉问题,并且可以完成复杂的目标检测,并打上标签,完成自动数据标注。

2023-10-28 08:115807

评论

发布
暂无评论
发现更多内容

接口测试的时候如何生成随机数据进行测试

测试人生路

接口测试

把最新JAVA面试真题(阿里/字节跳动/美团)整理出来,却被自己菜哭了,赶紧去刷题了

Java架构追梦

Java 阿里巴巴 架构 面试

简要分析近几年商业软件开发平台的现状

Philips

敏捷开发 快速开发 企业应用

【算法题目解析】杨氏矩阵数字查找

程序员架构进阶

算法 二分查找 杨氏矩阵

Redis基础—了解Redis是如何做数据持久化的

数据库 redis 编程 计算机

马士兵老师首推Java七条自学路线,自学到底能不能行?自学也能拿到40W年薪?

Java架构追梦

Java 架构 面试 马士兵 项目实战

从一场“众盟科技云滇之播”,我们发现了美食直播的商业与公益价值

人称T客

涨薪神作!华为内部操作系统与网络协议笔记爆火,Java程序员有福了

Java架构之路

Java 程序员 面试 编程语言

一不小心画了 24 张图剖析计网应用层协议!

苹果看辽宁体育

计算机网络 计算机 协议

Java垃圾回收GC概览

Java JVM GC

anyRTC Flutter SDK :全面实现跨平台音视频互动

anyRTC开发者

音视频 WebRTC RTC sdk 安卓

TCP性能分析与调优策略

程序员 计算机网络 网络协议

Android网络性能监控方案

移动研发平台EMAS

android 性能 监控 移动开发 应用

完美!阿里P8都赞不绝口的世界独一份489页SQL优化笔记

Java~~~

Java 数据库 程序员 架构师 SQL优化

Pulsar Summit Asia 2020 中文专场议题出炉!

Apache Pulsar

大数据 开源 Apache Pulsar

云计算简史(完整版)

明道云

18张图,揭开阿里巴巴开发手册强制使用SLF4J作为门面担当的秘密

沉默王二

Java slf4j 日志系统

音像协呼吁保护音乐版权:短视频平台成为侵权重灾区

石头IT视角

JMeter100个线程竟然只模拟出1个并发

dongfanger

软件测试 Jmeter 性能测试 压力测试 测试工具

Java程序员必备,Github上星标55.9k的微服务神级笔记简直太香了,学完感觉自己又行了!

Java架构之路

Java 程序员 架构 面试 编程语言

搭建一套ASP.NET Core+Nacos+Spring Cloud Gateway项目

yi念之间

《迅雷链精品课》第二课:区块链核心技术框架

迅雷链

区块链

LeetCode题解:剑指 Offer 22. 链表中倒数第k个节点,使用数组,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

阿里云视频云实时字幕技术,助力英雄联盟S10全球总决赛

阿里云CloudImagine

游戏开发 直播 语音识别 字幕

京东技术中台Flutter实践之路(二)

京东科技开发者

开源 中台 大前端 Web UI

当代开发者的六大真实现状,你被哪一个场景“戳中”了?

华为云开发者联盟

开发者 调研 报告

Docker

jdk 源码系列之ReentrantLock

sinsy

源码 jdk ReentrantLock 公平锁 非公平锁

IPFS云算力挖矿系统开发技术

薇電13242772558

区块链 IPFS

非线性声学回声如何破解?华为云硬核技术为你解决

华为云开发者联盟

算法 音视频

JVM真香系列:轻松掌握JVM运行时数据区

田维常

JVM

适配更多国产芯片,智谱AI推出第三代基座大模型ChatGLM3_企业动态_褚杏娟_InfoQ精选文章