写点什么

快手 Kwai Agents 系统、模型、数据全部开源

快手

  • 2024-01-04
    北京
  • 本文字数:1038 字

    阅读完需:约 3 分钟

快手Kwai Agents系统、模型、数据全部开源

7B 的模型也能玩转 AI Agents 了?近期,快手开源了 Kwai Agents,亲测发现,问它周末滑雪问题,它不但能帮你找到场地,连当天的天气都帮你考虑周到了。

 


大语言模型(LLM)通过对语言的建模而掌握了大量知识,并具备一定认知和推理能力。但由于无法跟世界保持实时的交互,在单独使用的情况下,常会出现一本正经地胡说八道的现象。而 AI Agents 就是解决这个问题的道路之一,它通过激发大模型任务规划、反思、调用工具等能力,使大模型能够借助现实世界工具提升生成内容的准确性,甚至有能力解决复杂问题。

 

据了解,KwaiAgents 是一个先进的 AI 智能体系统,由快手联合哈尔滨工业大学研发,通过使用大型语言模型来模仿人类认知技能,可应用于自然语言处理、语音识别等领域。Kwai Agents 可以使 7B/13B 的“小”大模型也能达到超越 GPT-3.5 的效果,目前该项目已将系统、模型、数据、评测全部开源,使得更多的研究人员可以参与其中。



技术报告:https://arxiv.org/abs/2312.04889

项目主页:https://github.com/KwaiKEG/KwaiAgents

 

从「KwaiAgents」的 Github 主页中可以看到,本次开源内容包含:

1.系统(KAgentSys-Lite):轻量级 AI Agents 系统,并配备事实、时效性工具集;

2.模型(KAgentLMs):Meta-Agent Tuning 后,具有 Agents 通用能力的系列大模型及其训练数据;

3.评测(KAgentBench):开箱即用的 Agent 能力自动化评测 Benchmark 与人工评测结果。

 


KAgentBench 通过人工精细化标注的上千条数据,做到了开箱即用,让大家能够用一行命令评测一个大模型在不同模板下,各方面的 Agents 能力。下表显示了经过快手团队调优后,7B-13B 模型各项能力的提升,且超越了 GPT-3.5 的效果:

 


同时,作者们还请人类标注者在 200 个事实性和时效性的问题(如“刘德华今年几岁了”),对不同的大模型和 Agent 系统进行了交叉评估,可以看到 KAgentSys 系统和 MAT 之后模型提升显著(百分号前为正确率,括号内为 5 分制均分)。

 



通常仅依赖网页搜索对一些长尾问题和热门问题返回结果不佳。比如问到“安东内拉比梅西大多少天?”这类长尾问题,往往搜索结果返回的都是一些两者的八卦新闻,而返回不了一些关键信息。而 KAgentSys 通过调用百科搜索工具获取精准的出生日期,再调用 time_delta 时间差工具算出年龄差,就能精准回答这个问题了。

 

快手技术人员表示,AI Agents 是一条非常有潜力的道路,未来一方面会在这个方向持之以恒地沉淀核心技术,并为整个社区不断地注入新的活力;另一方面,也会积极探索 Agents 技术与快手业务的结合,尝试更多有趣、有价值的创新应用落地。

2024-01-04 17:227681

评论 2 条评论

发布
用户头像
还有脸来infoq,真是羞死。
2024-01-08 11:32 · 北京
回复
用户头像
垃圾快手, 只会纵容骗子骗中国老太太的大骗子平台。
2024-01-08 11:32 · 北京
回复
没有更多了

个人年度总结:大模型驱动技术的趋势洞察

Geek-yan

测试用例设计方法六脉神剑——第六剑:心法至简,百家之长集成

京东科技开发者

“追求卓越·数创未来”CITE2024深圳电子展,火爆招商中

AIOTE智博会

电子展 深圳电子展 电子信息展 电博会

Integrity Pro mac v12.8.3激活版:全面提升Mac性能

iMac小白

只需一个bitget钱包,让你的web3体验翻倍

鳄鱼视界

人人都是智能体开发者!百度灵境矩阵打造国内最完整智能体生态

科技热闻

全新升级!名企私教服务加盟全栈开发与自动化测试班,成就你的技术梦想

测吧(北京)科技有限公司

测试

测试开发 | 游戏开发中的人工智能创新:探索数字娱乐的未来

测吧(北京)科技有限公司

测试

CQ 社区版 V2.7.0 发布 | 数据源版本扩充、新增批量执行功能等

BinTools图尔兹

数据库 运维 数据安全 dba 数据库管理

IPQ8074/IPQ8072 What's the performance difference?|8X8 4X4 High Performance 802.11ax Solution

wallyslilly

IPQ8072 IPQ8074

万界星空MES系统的十大核心功能

万界星空科技

数字化转型 MES系统 智能制造 mes 万界星空科技mes

开班在即 | 测试开发线下高薪私教班助力你的职场晋升

测吧(北京)科技有限公司

测试

Node.js 文件操作:学习如何删除文件

Liam

node.js 后端 nodejs Node文件系统 NodeAPI

专家论道:构建完善的新型显示产业生态体系

Geek_2d6073

Amazon Toolkit — CodeWhisperer 使用

亚马逊云科技 (Amazon Web Services)

人工智能 云上探索实验室 Amazon CodeWhisperer Amazon Cloud9

万界星空科技铜线MES、漆包线MES系统

万界星空科技

生产管理系统 智能制造 mes 漆包线mes 铜线mes

1688商品评论数据接口(1688.item_review)

tbapi

1688API接口 1688商品评论接口 1688商品评论数据接口 1688商品评价接口 1688商品评论API

测试开发 |AI驱动的健康监测与管理:数字化时代的医疗创新

测吧(北京)科技有限公司

测试

为什么电商系统必须选择定制开发?

SoFlu软件机器人

智能辅助技术的未来前景:创新与便利的引领者

测吧(北京)科技有限公司

测试

企业级“RAS”的数据平台如何炼成?

Geek_2d6073

软件测试/测试开发/丨人工智能与测试开发沙龙(PPT和回放集锦)

测试人

人工智能 软件测试

高薪程序员的三大窍门,你准备好了吗?

SoFlu软件机器人

测试开发 | 物流与供应链中的智能优化

测吧(北京)科技有限公司

测试

测试开发 | 创业与人工智能的密切关系

测吧(北京)科技有限公司

测试

2023新型显示产业技术创新专业赛圆满收官

Geek_2d6073

iZotope RX 10 for mac:音频处理的最佳选择

iMac小白

只需一个bitget钱包,让你的web3体验翻倍

威廉META

Mac电脑文献管理推荐 EndNote 21激活最新版

胖墩儿不胖y

Mac软件 文献管理工具 文献工具

高效GO语言集成开发工具 GoLand 2023 注册码中文版

mac大玩家j

代码编辑器 Mac软件 语言开发工具

石磊:BANI时代下,企业人才管理破局之道

用友BIP

智能招聘

快手Kwai Agents系统、模型、数据全部开源_自然语言处理_InfoQ精选文章