写点什么

OpenAI 放大招“对打”谷歌 Gemini:全力筹备多模态大模型,并发布新指令语言模型

  • 2023-09-20
    北京
  • 本文字数:2441 字

    阅读完需:约 8 分钟

大小:1.34M时长:07:46
OpenAI放大招“对打”谷歌Gemini:全力筹备多模态大模型,并发布新指令语言模型

这场大模型时代的较量,谁能笑到最后?

 

自去年年底通过 ChatGPT 惊艳全球以来,OpenAI 一直保持着惊人的产品发布速度,通过迅如闪电的“组合拳”保持该公司在 AI 领域建立的统治地位与领导者形象。

 

但其他科技巨头绝不可能坐视 OpenAI 一家独大。谷歌已经公布大语言模型 Gemini,计划于今年秋季首次与广大用户见面,且有报道称该模型已经在接受指定企业客户的测试。从目前的情况看,谷歌有可能后来居上、实现反超。

 

面对挑战,OpenAI 连续放大招,除了发布新指令语言模型 GPT-3.5-turbo-instruct,还计划推出多模态大模型 GPT-Vision 与 Gobi。据一位未公开身份的知情人士透露,OpenAI 在积极将多模态功能(类似于 Gemini 将要提供的功能)纳入 GPT-4。

新语言模型 InstructGPT-3.5

 

近日,OpenAI 推出 GPT-3.5-turbo-instruct,这是一款新的指令语言模型,效率可以与聊天优化的 GPT-3.5 Turbo 模型相媲美。

 

指令模型属于大语言模型的一种,会在使用一大量数据进行预训练之后,再通过人类反馈(RLHF)做进一步完善。在此过程中,会由人类负责评估模型根据用户提示词生成的输出,对结果做改进以达成目标效果,再将更新后的素材用于进一步训练。

 

因此,指令模型能够更好地理解并响应人类的查询预期,减少错误并缓解有害内容的传播。从 OpenAI 的测试结果来看,尽管体量仅为后者的百分之一,但人们明显更喜欢拥有 13 亿参数的 InstructGPT 模型,而非拥有 1750 亿参数的 GPT 模型。

 

据了解,GPT-3.5-turbo-instruct 的成本与性能同其他具有 4K 上下文窗口的 GPT-3.5 模型相同,使用的训练数据截止于 2021 年 9 月。



GPT-3.5-turbo-instruct 将取代一系列现有 Instruct 模型,外加 text-ada-001、text-babbage-001 和 text-curie-001。这三款 text-davinci 模型将于 2024 年 1 月 4 日正式停用。

 

OpenAI 表示,GPT-3.5-turbo-instruct 的训练方式与之前的其他 Instruct 模型类似。该公司并未提供新 Instruct 模型的细节或基准,而是参考了 2022 年 1 月发布的 InstructGPT,即 GPT-3.5 模型的实现基础。

 

OpenAI 称,GPT-4 拥有超越 GPT-3.5 的复杂指令遵循能力,生成的结果也比 GPT-3.5 质量更高;但 GPT-3.5 也有自己的独特优势,例如速度更快且运行成本更低。GPT-3.5-turbo-instruct 并非聊天模型,这一点与原始 GPT-3.5 有所区别。具体来讲,与之前的聊天应用模型不同,GPT-3.5-turbo-instruct 主要针对直接问答或文本补全进行优化。

 

速度方面,OpenAI 称 GPT-3.5-turbo-instruct 速度与 GPT-3.5-turbo 基本相当。

 

下图为 OpenAI 设计的 Instruct 指令模型与 Chat 聊天模型之间的区别。这种固有差异自然会对提示词的具体编写产生影响。



OpenAI 负责开发者关系的 Logan Kilpatrick 称,这套新的指令模型属于向 GPT-3.5-turbo 迁移当中的过渡性产物。他表示其并不属于“长期解决方案”。已经在使用微调模型的用户,需要根据新的模型版本做重新微调。目前微调功能只适用于 GPT-3.5,GPT-4 的微调选项计划于今年晚些时候发布。

多模态大模型 GPT-Vision 与 Gobi

 

除了 GPT-3.5-turbo-instruct,OpenAI 近日还计划发布多模态大模型 GPT-Vision,以及一个代号为“Gobi”的更强大的多模态大模型。

 

据悉,GPT-Vision 在 3 月份的 GPT-4 发布期间首次预览,是 OpenAI 融合文本和视觉领域的雄心勃勃的尝试。虽然该功能最初实际用例仅限于 Be My Eyes 公司,这家公司通过其移动应用帮助视力障碍或失明用户进行日常活动。

 

GPT-Vision 有潜力重新定义创意内容生成的界限。想象一下使用简单的文本提示生成独特的艺术品、徽标或模因。或者考虑一下对有视觉障碍的用户的好处,他们可以通过自然语言查询与视觉内容交互并理解视觉内容。该技术还有望彻底改变视觉学习和教育,使用户能够通过视觉示例学习新概念。

 

如今,OpenAI 正准备将这项名为 GPT-Vision 的功能开放给更广泛的市场受众。

 

此外,据 The Information 报道,OpenAI 即将发布代号为“Gobi”的下一代多模态大语言模型,希望借此击败谷歌并继续保持市场领先地位。目前,Gobi 的训练还没有开始,有评论认为其有机会成为 GPT-5。

 

报道称,OpenAI 之所以耗费大量时间来推出 Gobi,主要是担心新的视觉功能会被坏人利用,例如通过自动解决验证码来冒充人类,或者通过人脸识别追踪人们。但现在,OpenAI 的工程师们似乎想到办法来缓解这个安全问题了。

OpenAI CEO:GPT-5 尚未出现,计划将多模态功能纳入 GPT-4

 

据了解,多模态大语言模型的本质是一种先进 AI 系统,能够理解和处理多种数据形式,包括文本和图像。与主要处理文本内容的传统语言模型不同,多模态大语言模型能够同时对文本加视觉类内容进行分析和生成。

 

也就是说,这类模型可以解释图像、理解上下文并生成包含文本和视觉输入的响应结果。多模态大模型还拥有极高的通用性,适用于从自然语言理解到图像解释的诸多应用,借此提供更广泛的信息处理能力。

 

报道指出,“这些模型能够处理图像和文本,例如通过查看用户绘制的网站外观草图来生成网站构建代码,或者根据文本分析结果输出可视化图表。如此一来,普通用户也能快速理解内容含义,不必再向拥有技术背景的工程师们求助。”

 

OpenAI 首席执行官 Sam Altman 在最近的采访中表示,尽管 GPT-5 尚未出现,但他们正计划对 GPT-4 进行各种增强。而开放多模态支持功能,也许就是这项计划的一部分。

 

在上周接受《连线》采访时,谷歌 CEO 桑达尔·皮查伊表达了他对于谷歌当前 AI 江湖地位的信心,强调其仍掌握着技术领先优势、并在创新与责任方面求取平衡的审慎战略。他也对 OpenAI ChatGPT 的深远意义表示认可,称赞其拥有良好的产品-市场契合度、让用户对 AI 技术做好了准备。但他同时强调,谷歌在产品信任和负责态度方面会采取更加谨慎的立场。

 

参考链接:

https://the-decoder.com/openai-releases-new-language-model-instructgpt-3-5/

https://www.theinformation.com/articles/openai-hustles-to-beat-google-to-launch-multimodal-llm

https://aibeat.co/openai-multimodal-llm-gpt-vision-google/

2023-09-20 14:565524

评论

发布
暂无评论
发现更多内容

微服务身份认证需求下的私钥托管痛点与破局

全象云低代码

微服务 低代码 身份认证 鉴权 密钥

从Nacos到完全自研|得物的注册中心演进之路

得物技术

架构 raft 注册中心 实例 兼容性测试

企业培训赛道大火,谁能真正解企业人才培训之急?

ToB行业头条

如何搭建FAQ文档?只需四步

小炮

企业管理工具

Linux之route命令

入门小站

Linux

在线HTML转JSX工具

入门小站

工具

会声会影2022脸部索引功能详解

懒得勤快

脱颖而出!OceanBase 入选 2021“科创中国”开源创新榜单

OceanBase 数据库

数据库 分布式 OceanBase 开源 科创中国

刚刚,我们收到了北京冬奥组委的感谢信

阿里巴巴云原生

阿里云 云原生 冬奥会 合作

企业深入使用微服务后会面临哪些问题?云原生全链路灰度给了新思路

阿里巴巴云原生

阿里云 云原生 灰度 云原生微服务 链路

2022年1月娱乐直播行业用户洞察:行业格局稳定,内容运营精细化

易观分析

【C语言】一篇速通操作符

謓泽

C语言 操作符 3月月更

混合云管平台排名您知道吗?看这里!

行云管家

混合云 云管

Camtasia Studio2022激活码序列号

茶色酒

Camtasia Studio2022

使用 Recast.AI 创建具有人工智能的聊天机器人

汪子熙

人工智能 机器学习 聊天机器人 CRM 3月月更

web前端培训:Vue3 调度系统的深度剖析

@零度

Vue 前端开发

如何获取 Docker 容器的 IP 地址

AlwaysBeta

Docker 容器

EMQ 正式成为 OASIS 最高级别成员,主导推进物联网协议标准化应用

EMQ映云科技

开源 物联网 ibm mqtt OASIS

Web 键盘输入法应用开发指南 (3) —— 输入法事件

天择

JavaScript 键盘 输入法 3月月更

大数据培训:Spark高频面试题汇总

@零度

大数据 spark

网络安全kali渗透学习 web渗透入门 使用msf扫描靶机上mysql服务的空密码

学神来啦

网络安全 kali kali Linux 运维‘

《隐私计算》重磅发布,全面、系统论述数据要素安全流通价值

博文视点Broadview

DM 中 relay log 性能优化实践丨TiDB 工具分享

PingCAP

一文全面掌握大数据关联与汇聚

云智慧AIOps社区

redis Clickhouse flink sql 大数据开发

小程序已成为超级APP必选项,逐鹿私域“留量”

Speedoooo

小程序 APP开发 软件开发、 轻量应用 小程序管理平台

2022年数据库审计厂家就选行云管家!功能强大!

行云管家

数据库 网络安全 数据库审计

Tuxera2022mac读写硬盘U盘工具

茶色酒

Tuxera2022

2022年的SaaS行业,钱往哪里去?

ToB行业头条

恒源云(GPUSHARE)_超越预训练 NLP 的模型来喽

恒源云

自然语言处理 深度学习 算法

始于信任 忠于专业|DataPipeline收到一封来自山东城商行联盟的感谢信

DataPipeline数见科技

《重构 JavaScript》读后感和部分摘录

道道里

前端 测试 重构

OpenAI放大招“对打”谷歌Gemini:全力筹备多模态大模型,并发布新指令语言模型_企业动态_凌敏_InfoQ精选文章