QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

快手 Kwai Agents 系统、模型、数据全部开源

快手

  • 2024-01-04
    北京
  • 本文字数:1038 字

    阅读完需:约 3 分钟

快手Kwai Agents系统、模型、数据全部开源

7B 的模型也能玩转 AI Agents 了?近期,快手开源了 Kwai Agents,亲测发现,问它周末滑雪问题,它不但能帮你找到场地,连当天的天气都帮你考虑周到了。

 


大语言模型(LLM)通过对语言的建模而掌握了大量知识,并具备一定认知和推理能力。但由于无法跟世界保持实时的交互,在单独使用的情况下,常会出现一本正经地胡说八道的现象。而 AI Agents 就是解决这个问题的道路之一,它通过激发大模型任务规划、反思、调用工具等能力,使大模型能够借助现实世界工具提升生成内容的准确性,甚至有能力解决复杂问题。

 

据了解,KwaiAgents 是一个先进的 AI 智能体系统,由快手联合哈尔滨工业大学研发,通过使用大型语言模型来模仿人类认知技能,可应用于自然语言处理、语音识别等领域。Kwai Agents 可以使 7B/13B 的“小”大模型也能达到超越 GPT-3.5 的效果,目前该项目已将系统、模型、数据、评测全部开源,使得更多的研究人员可以参与其中。



技术报告:https://arxiv.org/abs/2312.04889

项目主页:https://github.com/KwaiKEG/KwaiAgents

 

从「KwaiAgents」的 Github 主页中可以看到,本次开源内容包含:

1.系统(KAgentSys-Lite):轻量级 AI Agents 系统,并配备事实、时效性工具集;

2.模型(KAgentLMs):Meta-Agent Tuning 后,具有 Agents 通用能力的系列大模型及其训练数据;

3.评测(KAgentBench):开箱即用的 Agent 能力自动化评测 Benchmark 与人工评测结果。

 


KAgentBench 通过人工精细化标注的上千条数据,做到了开箱即用,让大家能够用一行命令评测一个大模型在不同模板下,各方面的 Agents 能力。下表显示了经过快手团队调优后,7B-13B 模型各项能力的提升,且超越了 GPT-3.5 的效果:

 


同时,作者们还请人类标注者在 200 个事实性和时效性的问题(如“刘德华今年几岁了”),对不同的大模型和 Agent 系统进行了交叉评估,可以看到 KAgentSys 系统和 MAT 之后模型提升显著(百分号前为正确率,括号内为 5 分制均分)。

 



通常仅依赖网页搜索对一些长尾问题和热门问题返回结果不佳。比如问到“安东内拉比梅西大多少天?”这类长尾问题,往往搜索结果返回的都是一些两者的八卦新闻,而返回不了一些关键信息。而 KAgentSys 通过调用百科搜索工具获取精准的出生日期,再调用 time_delta 时间差工具算出年龄差,就能精准回答这个问题了。

 

快手技术人员表示,AI Agents 是一条非常有潜力的道路,未来一方面会在这个方向持之以恒地沉淀核心技术,并为整个社区不断地注入新的活力;另一方面,也会积极探索 Agents 技术与快手业务的结合,尝试更多有趣、有价值的创新应用落地。

2024-01-04 17:227822

评论 2 条评论

发布
用户头像
还有脸来infoq,真是羞死。
2024-01-08 11:32 · 北京
回复
用户头像
垃圾快手, 只会纵容骗子骗中国老太太的大骗子平台。
2024-01-08 11:32 · 北京
回复
没有更多了
发现更多内容

RocksDB 在 vivo 消息推送系统中的实践

vivo互联网技术

RocksDB 消息推送系统 分布式数据存储模块

AR + 通信,虚实结合让工作协同从线上到「现场」

融云 RongCloud

通信 AR 数字经济 远程协作 工作协同

淘宝详情API接口在电商行业中的重要性及实时数据获取实现

Noah

手把手带你配置一个DHCP服务器 | 京东云技术团队

京东科技开发者

网络协议 服务器 Wireshark DHCP

专业视频调色软件达芬奇DaVinci Resolve Studio 18激活中文正式版

胖墩儿不胖y

Mac软件 视频剪辑工具 视频后期处理工具 Mac软件视频编辑

测试用例设计方法六脉神剑——第二剑:招式组合,因果判定出世 | 京东物流技术团队

京东科技开发者

测试 因果图法 判定表法

活动预告 | 中国数据库联盟(ACDU)中国行第四站定档西安,邀您探讨数据库前沿技术

墨天轮

数据库 postgresql oceanbase 国产数据库 KaiwuDB

华为云开源 | 线下meetup · 中国人民大学站顺利收官

华为云开源

区块链 微服务 时序数据库 AI大模型 前端组件库

合合信息旗下启信宝与鹏城实验室达成数据托管合作,“AI靶场”让数据管理更精准

合合技术团队

人工智能 数据处理 合合信息 启信宝

SFTP工作方式及原理(大文件传输小知识)

镭速

文件传输协议 大文件传输软件

IT行业软件数据文件传输安全与高效是如何保障的?

镭速

大文件传输软件

15 | 二分查找(上):如何用最省内存的方式实现快速查找功能

鲁米

图形化编程平台对比:iVX 与 Blockly/Scratch

代码生成器研究

中企出海 | 引领全球税务治理,助力中企出海

用友BIP

中企全球化

Exploring Advanced WiFi 6 Solutions: QCN6122 vs. QCN6102 with IPQ5018 Platform

wallyslilly

ipq5018 QCN6102 QCN6122

深入解析LLaMA如何改进Transformer的底层结构

华为云开发者联盟

人工智能 华为云 大模型 华为云开发者联盟 LLM

终于来啦!传奇世界之帝王传世详细图文架设教程

echeverra

传奇

16 | 二分查找(下):如何快速定位IP对应的省份地址

鲁米

轻松掌握!作为产品经理,手把手教你使用API接口获取拼多多商品详情

Noah

URL Manager Pro for Mac(浏览器标签管理应用)v6.4.1激活版

iMac小白

office全套办公软件Microsoft Office LTSC 2021 v16.81beta版

iMac小白

NFTScan Labs:我们为什么要推出 L2 网络 Mint Blockchain?

NFT Research

NFT\ Layer 2

浅析MySQL代价模型:告别盲目使用EXPLAIN,提前预知索引优化策略 | 京东云技术团队

京东科技开发者

MySQL 数据库 索引优化 EXPLAIN

localhost工具:本地代码的远程之路 | 京东云技术团队

京东科技开发者

HTTP 内网穿透 go语言 localhost

快手Kwai Agents系统、模型、数据全部开源_自然语言处理_InfoQ精选文章