微软开源多模态聊天机器人Visual ChatGPT_开源_Anthony Alford_InfoQ精选文章



 写点什么

登录/注册

微软开源多模态聊天机器人Visual ChatGPT

微软研究院最近开源了Visual ChatGPT，一个聊天机器人系统，可以根据人类的文本提示生成和处理图像。该系统将OpenAI的ChatGPT与 22 种不同的视觉基础模型（VFM）相结合，可以支持多模态交互。

arXiv 上的一篇论文对该系统进行了描述。用户可以通过输入文本或上传图片与聊天机器人互动。机器人还可以根据文本提示生成图像，或者通过处理聊天历史记录中的图像来生成图像。该聊天机器人的一个关键模块是提示词管理器（Prompt Manager），它将用户输入的原始文本组织成一个“思维链”提示词，帮助 ChatGPT 确定是否需要调用 VFM 工具来执行图像任务。据微软团队称，Visual ChatGPT 是：

一个包含各种 VFM 的开放系统，使用户能够超越语言格式与 ChatGPT 进行交互。为了构建这样一个系统，我们精心设计了一系列提示词，将视觉信息注入到 ChatGPT 中，从而逐步解决复杂的视觉问题。

ChatGPT 和其他大语言模型（LLM）已经显示出了强大的自然语言处理能力，但它们被训练成只处理一种输入模式：文本。微软并没有训练另一个新的模型来处理多模态输入，而是设计了一个 Prompt Manager 来生成输入给 ChatGPT 的文本，进而生成可以调用 VFM（如 CLIP 或Stable Diffusion）来执行计算机视觉任务的输出。

Visual ChatGPT 架构

提示词管理器基于 LangChain 代理，而 VFM 被定义为 LangChain 代理工具。为了确定是否需要调用工具，代理会结合用户提示词和对话历史记录（其中包含了图像文件名），然后应用提示词的前缀和后缀。前缀包括以下文本：

Visual ChatGPT 不能直接读取图像，但它有一些工具可用来完成不同的视觉任务。每一张图像都有一个文件名，格式为“image/xxx.png”，Visual ChatGPT 可以调用不同的工具来间接理解图像。

前缀中的附加文本会引导 ChatGPT 问自己“是否需要使用工具”，如果需要使用工具，它应该输出工具的名称以及所需的输入，例如要生成的图像文件名或图像的文本描述。代理将迭代地调用 VFM 工具，将生成的图像发送到聊天会话中，直到不再需要使用工具。此时，最后生成的文本输出将被发送到聊天会话中。

在 Hacker News 的一个帖子中，一位用户指出 VFM 使用的内存比语言模型少得多，他想知道为什么。另一位用户回复说：

图像模型可以很差，但仍然可以生成令人满意的结果。试想一下，我们可以将图像的像素随机变化 10%，我们只会看到图像质量降低了一些，但其他方面仍然是完美的。而语言模型就不是这样了，因为它们试图解决的问题要“尖锐”得多，即使它们只是偏离了一点点，都会导致结果出现严重偏差。所以我们需要一个更大的模型来获得足够的文本“清晰度”。

Visual ChatGPT源代码可在 GitHub 上获得。

原文链接：

Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT

相关阅读：

一部手机就可运行，精通 Python 等 20 种语言！谷歌终于能与 OpenAI 打擂台了，全新 PaLM 2 比肩 GPT-4

AIGC 在保险行业有哪些应用落地的可能性？

AI 时代的“身份证”要来了？ChatGPT 之父推出加密钱包 World App，并称区块链可以区分人与 AI

评论

发布

暂无评论

面试题笔记

在线常用crontab表达式大全验证解析

分布式事务详解：分段提交与最终一致性

分布式事务可靠消息最终一致 TCC 构架最终一致性

Video.js 使用教程 - 手把手教你基于 Vue 搭建 HTML 5 视频播放器

一文读懂并发与并行

并发编程多线程并行并发’ #java

架构实战营6&微信业务架构&学生管理系统方案

架构实战营-第6期模块一课后作业

「架构实战营」

个全中文注释的迷你Spring!

程序员阿杜

Java spring springboot

React Router 6 (React路由) 最详细教程

React react rout

Petal Maps的美学钥匙，解锁AITO问界M5的硬核浪漫

企业如何实现在线客服功能？

直播预告｜FeatureStore Meetup V2

星策开源社区

人工智能大数据开源特征平台 MLOps

JavaScript 引擎是如何实现 async/await 的

java高级用法之:在JNA中使用类型映射

程序那些事

Java 程序那些事 3月月更 JNA

【研讨会报名截止最后一天】全程参会，还有惊喜奖品等你拿！

龙智—DevSecOps解决方案

CI/CD 在线研讨会

车联网数据安全新挑战的技术应对方案

车联网物联网数据安全容器安全

如何建立高效的质量保障机制

软件测试质量保障交付能力

解决报错：SSL certificate problem: certificate has expired

智能家居开放平台技术建设新思路

物联网智慧社区智慧家居智能终端应用平台

赋能创新，深开鸿重磅发布面向金融行业KaihongOS发行版

微信业务架构图&学生管理系统架构设计

高山觅流水

架构实战营「架构实战营」

什么是404页面？

阿里巴巴代码规约检测&Java 代码规约扫描

阿里云云效

阿里巴巴阿里云代码扫描 #java 代码规约检测

TDesign 更新周报（2022年3月第4周）

Linux之time命令

在线HTML压缩工具

[Day2]-[回溯] N皇后问题

LeetCode 动态规划数据结构算法

Hoo虎符研究院｜区块链简报 20220328期

区块链前沿News

虎符 Hoo 虎符交易所

性能测试中的LongAdder

性能测试 FunTester

【ELT.ZIP】OpenHarmony啃论文俱乐部——轻翻那些永垂不朽的诗篇

OpenHarmony 数据压缩 ELT.ZIP

DiDi Kafka-Manager安装和简单使用

kafka spring kafka manager