报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

大模型赛道再添新玩家,快手自研大模型“快意”亮相

  • 2023-08-21
    北京
  • 本文字数:878 字

    阅读完需:约 3 分钟

大模型赛道再添新玩家,快手自研大模型“快意”亮相

近日,快手自研的大语言模型“快意”(KwaiYii)已开启内测,并为业务团队提供了标准 API 和定制化项目合作方案。

 

GitHub 链接:

https://github.com/kwai/KwaiYii

 

据官方介绍,快意大模型(KwaiYii) 是由快手 AI 团队从零到一独立自主研发的一系列大规模语言模型(Large Language Model,LLM),当前包含了多种参数规模的模型,并覆盖了预训练模型(KwaiYii-Base)、对话模型(KwaiYii-Chat)。

 

其中,13B 规模的系列模型 KwaiYii-13B 主要特点包括:


  • KwaiYii-13B-Base 预训练模型具备强大的通用技术支撑能力,在鳄鱼权威的中/英文基准上取得了同等模型尺寸下的 State-Of-The-Art 效果。例如,KwaiYii-13B-Base 预训练模型在 MMLU、CMMLU、C-Eval、HumanEval 等 Benchmark 上目前达到同等模型规模的领先水平。

  • KwaiYii-13B-Chat 对话模型具备出色的语言理解和生成能力,支持内容创作、信息咨询、数学逻辑、代码编写、多轮对话等广泛任务,人工评估结果表明 KwaiYii-13B-Chat 超过主流的开源模型,并在内容创作、信息咨询和数学解题上接近 ChatGPT(3.5)同等水平。

 

据介绍,快意大模型(KwaiYii)在 MMLU、CMMLU、C-Eval、HumanEval 等 Benchmark 上目前处于同等模型规模的领先水平,在最新的 CMMLU 中文向排名中,快意的 13B 版本 KwaiYii-13B 同时位列 five-shot 和 zero-shot 下的第一名,在人文学科、中国特定主题等方面较强,平均分超 61 分。

 

KwaiYii-13B-Chat 对话模型具备出色的语言理解和生成能力,支持内容创作、信息咨询、数学逻辑、代码编写、多轮对话等广泛任务。


快手方面表示,从人工评估的结果来看,KwaiYii-13B-Chat 超过了同等规模的开源模型,并接近 ChatGPT 同等水平。在内容创作、信息咨询、逻辑推理和数学解题上,基本与 ChatGPT(3.5)效果相当。在多轮对话能力方面,KwaiYii-13B-Chat 超过同等规模的开源模型,但与 ChatGPT(3.5)仍有一定差距。注意:人工评估结果受到评测数据覆盖面、标注主观性等因素的影响,无法全面反映大语言模型的所有能力。



据悉,快手 AI 团队将持续迭代“快意”大模型,一方面将继续优化模型性能并研发多模态能力 ,另一方面也在推进更多 C 端与 B 端业务场景下的落地 。

2023-08-21 11:294568

评论

发布
暂无评论
发现更多内容

架构师训练营第八周作业

丁乐洪

shell脚本的使用该熟练起来了,你说呢?(篇三)

良知犹存

Shell

图解MyBatis

田维常

架构训练营-week-12总结

于成龙

架构训练营

一只支持凡尔赛文学创作的摄影手机

脑极体

美团十年架构师精心分享:手写分布式消息中间件RocketMQ笔记

小Q

学习 面试 微服务 MQ 中间件

《架构即未来:现代企业可扩展的Web架构流程和组织》.pdf

田维常

架构

2020最新最全的Java架构面试复习指南,掌握10%阿里P7没问题

Java架构之路

Java 程序员 架构 面试 编程语言

spring2.5.6+java6升级到spring4+java8了

阿水

Java spring 升级

架构师训练营第 12 周学习总结

netspecial

极客大学架构师训练营

架构师训练营第 12 周作业

netspecial

极客大学架构师训练营

可能会重塑未来移动支付市场的格局

CECBC

货币

第三周设计作业

cc

第三周学习心得

cc

TCC Demo 代码实现

Java 分布式事务 Demo TCC

架构训练营-week12-作业1

于成龙

2020的另一面:5G的斯普特尼克之年

脑极体

100+大厂应届offer,从7个维度全面分析

程序员小灰

编程 面试 面经 腾讯大厂

OSI七层模型与TCP/IP五层模型

Linux服务器开发

TCP/IP 网络协议栈 底层应用开发 Linux服务器开发 OSI

怎么保护自己的音乐作品不被盗用,用FL制作防盗水印片段

懒得勤快

版权保护 音乐 音乐制作 编曲

刚参加完阿里P6面试归来(Offer已斩获),6点面试经验总结

Java架构之路

Java 程序员 架构 面试 编程语言

LeetCode题解:22. 括号生成,BFS,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

作业-第8周

arcyao

《前端算法系列》如何让前端代码速度提高60倍

徐小夕

Java 算法 大前端

Java内存模型JMM详细解析

程序员 面试 并发编程 架构师

记录一次腾讯c/c++ linux后台开发岗面试经历(面试题含答案)

linux大本营

c++ Linux 腾讯 后台开发 架构师

陪你手撕源码系列之 STL set 相关算法

herongwei

c++ 算法 set stl

架构师系列9: 找出单向链表合并节点

桃花原记

面试官:简单说一下RocketMQ整合SpringBoot吧

比伯

Java 编程 程序员 架构 计算机

命令行搜索神器fzf

Rayjun

Linux

阿里聚划算5轮面试题:GC收集器、多线程锁、海量数据技术考核

Java架构之路

Java 程序员 架构 面试 编程语言

大模型赛道再添新玩家,快手自研大模型“快意”亮相_生成式 AI_凌敏_InfoQ精选文章