写点什么

HuggingGPT:借力 LLM 使用 Hugging Face 模型来解决复杂的 AI 任务

  • 2023-05-15
    北京
  • 本文字数:1040 字

    阅读完需:约 3 分钟

HuggingGPT:借力LLM使用Hugging Face模型来解决复杂的AI任务

浙江大学和微软亚洲研究院的研究人员最近发表了一篇论文,探讨使用大型语言模型(LLM)作为控制器来操纵 Hugging Face 等社区中已有的人工智能模型。

 

这项研究背后的核心思想是使用 LLM(如 ChatGPT)的高级语言理解和生成能力将不同领域现有的 AI 模型连接起来。

 

具体来说,在接收到用户请求时,我们使用 ChatGPT 进行任务规划,根据 Hugging Face 社区提供的模型功能描述选择模型,然后使用所选的 AI 模型执行每一项子任务,并汇总执行结果生成响应。

 

研究人员宣称,他们的方法使解决语言、视觉、语音及其他领域的复杂人工智能任务成为可能。

 

为了在 ChatGPT 和 Hugging Face 模型之间建立连接,HuggingGPT 使用了Hugging Face库中的模型描述,并将它们提供给 ChatGPT 提示符。

 

这个过程的第一个阶段是任务规划:ChatGPT 分析用户请求并将其分解为可以使用库中模型解决的任务。第二个阶段是选择最适合规划任务的模型。下一个逻辑步骤是执行任务并将结果返回给 ChatGPT。最后,ChatGPT 通过整合所有模型的预测来生成响应

 

在任务规划阶段,HuggingGPT 使用了任务规范(specifications)和示范(demonstrations)。一个任务规范包括 4 个槽,分别定义了 ID任务类型(如视频、音频等)、依赖关系(定义前置任务)和任务参数。示范将用户请求与任务规范序列关联在一起。例如,用户请求“In image /exp2.jpg, what is the animal and what is it doing?”会与一个包含 4 项任务的序列相关联:图像到文本、图像分类、对象检测以及最后的问题回答任务。

 

论文的 6 位作者表示,他们使用 HuggingGPT 进行了一系列实验,包括简单任务和涉及多个子任务的复杂任务。

 

HuggingGPT 以 ChatGPT 为中心整合了 Hugging Face 上的数百个模型,涵盖了文本分类、对象检测、语义分割、图像生成、问答、文本转语音、文本转视频等 24 项任务。实验结果证明了 HuggingGPT 在处理多模态信息和复杂人工智能任务方面的能力。

 

根据其创建者的说法,HuggingGPT 还有一些局限性,包括:效率和延迟,这主要与每个阶段都至少要和大型语言模型交互一次有关;上下文长度限制,这与 LLM 可以接受的最大词元数有关;系统稳定性可能因 LLM 偶尔不遵守指令而降低,也可能因为 LLM 控制的某个模型失败而降低。

 

原文链接:

https://www.infoq.com/news/2023/04/hugginggpt-complex-ai-tasks/


相关阅读:

一部手机就可运行,精通 Python 等 20 种语言!谷歌终于能与 OpenAI 打擂台了,全新 PaLM 2 比肩 GPT-4

AIGC 在保险行业有哪些应用落地的可能性?

IBM 加入 AI 大战!发布生成式 AI 平台 watsonx,最早将于 7 月推出

2023-05-15 08:001

评论

发布
暂无评论
发现更多内容
HuggingGPT:借力LLM使用Hugging Face模型来解决复杂的AI任务_AI_Sergio De Simone_InfoQ精选文章