写点什么

神秘大模型一夜“征服”所有人,超 GPT-4 却无人认领?网友:OpenAI 要有大麻烦了

  • 2024-04-30
    北京
  • 本文字数:2056 字

    阅读完需:约 7 分钟

大小:1.00M时长:05:49
神秘大模型一夜“征服”所有人,超GPT-4却无人认领?网友:OpenAI 要有大麻烦了

整理 | 华卫


昨晚,一个突然出现在 LMSys 基准测试网站的神秘模型,在大模型领域掀起了巨大波澜。用过的人都在夸,刚发布服务器就被挤爆,奥特曼也迅速出现在吃瓜现场...


而这一切的主角,就是 gpt2-chatbot。没有出处,也没有介绍,在没有官方文件的情况下,一夜间“惊艳”所有人的视线。


有人认为 gpt2-chatbot 可能是 OpenAI 的下一个模型,还有人说它是 GPT-4.5 或 5 的 beta 测试,甚至有评价称这可能是对 GPT 架构的根本升级。尽管该模型的系统提示表明它来自 OpenAI,但 gpt2-chatbot 却拒绝引用 OpenAI。


有意思的是,在众人猜测 gpt2-chatbot 身份的时刻,Open AI 的 CEO Sam Altma 发帖表达了对 gpt2-chatbot 的喜爱:“我确实对它情有独钟。”


对此,有网友评价说:“如果不是 ChatGPT 的新版本,OpenAI 就有麻烦了!” 也有网友表示,“希望它不是 GPT-5,这个模型很难完成 Opus 擅长的推理任务。”


以下是部分用户对 gpt2-chatbot 的测试重点总结:

  • gpt2-chatbot 一直声称“基于 GPT-4”并具有“v2”个性,并称自己为 ChatGPT。

  • 其呈现自己的方式,通常与其他在 OpenAI 数据集上训练的模型的幻觉回复不同。

  • 它似乎使用了 OpenAI 的 tiktoken 分词器,对 OpenAI 使用的特殊 token 有反应,且对 Claude/Llama/Gemini 使用的特殊 token 没有反应。

  • 当需要提供联系方式时,gpt2-chatbot 会始终如一地给出 OpenAI 的信息,甚至比 GPT-3.5/4 的更详细。

  • 它表现出特定于 OpenAI 的提示注入漏洞,且从未声称属于 OpenAI 以外的任何其他实体组织。

  • 对于相同的提示,gpt2-chatbot 始终提供与 Anthropic、Meta、Mistral、Google 等模型不同的输出。


效果领先多个模型


gpt2-chatbot 一经发布,众多用户都涌入这一模型测试其在各领域的表现。从公开平台的反馈来看,该模型在多方面的能力和实际效果都赶上甚至超过许多其他的前沿模型。


例如,gpt2-chatbot 可以在 PyOpenGL 中一次性生成旋转 3D 立方体, 而 GPT-4、Gemini-1.5 和 Claude-3 需要尝试三次才可以。



在解决兄弟姐妹之谜时,gpt2-chatbot 得出和 GPT-4 Turbo 相同的结果。



除这两个案例外,还有许多网友抛出了 gpt2-chatbot 在解决各类问题时的优秀能力。

网友 @Andrew Gao:gpt2-chatbot 一口气正确解决了 IMO(数学奥林匹克)问题。



网友 @murat :该模型可以解决一些 GPT-4 做不到的事情,如 A+B-1 的数学问题,打破了非常强的学习惯例。



网友 @Phil:用 gpt2-chatbot 制作 ASCII 艺术的效果领先于任何其他模型。



网友 @murat :gpt2-chatbot 第一次尝试就解决了在 Claude Opus 、GPT4 和 llama3-70b 模型上失败的 TypeScript 编写问题,并且没有错误。



不仅在复杂的代码操作任务以及用于测试新模型的所有编码提示上,gpt2-chatbot 比 Claude Opus 以及最新的 GPT-4 更好。当被要求规划 LLM 代理的计划以帮助用户预订晚餐时,gpt2-chatbot 也能给出出色的响应。


模型的神秘来源


“在我看来,这个神秘模型很可能是 GPT-4.5 或 GPT-5,或者实际上是一个真正的 GPT-2 模型,由 OpenAI 或 LMSYS 提供。总的来说,它输出的内容质量,特别是格式、结构和整体理解,绝对是一流的。对我来说,这感觉就像是从 GPT-3.5 到 GPT-4 的一步,但以 GPT-4 为起点。”

关于 gpt2-chatbot 的公开网页介绍(非官方)


当需要提供联系方式时,gpt2-chatbot 会始终如一地给出 OpenAI 的信息,甚至比 GPT-3.5/4 的更详细。而且,该模型使用 OpenAI 的 token 分词器,对 OpenAI 使用的特殊 token 有反应。

一种猜测认为,gpt2-chatbot 实际上是基于 GPT-2 架构的,其表现出的能力大大超出了任何以前已知的 GPT-2 模型。


另一种可能性是,它实际上是一个 GPT-2 模型。最近(2024 年 4 月 7 日)Meta/FAIR Labs 和 Mohamed bin Zayed AI University of AI (MBZUAI) 的一篇题为《语言模型物理学:第 3.3 部分,知识容量缩放定律》的文章深入研究了 GPT-2 架构的细节,并确定:“ GPT-2 架构在知识存储方面与 LLaMA/Mistral 架构相当甚至超过,尤其是在较短的训练持续时间内。”


至于该模型被认为是 GPT-4 的强烈说法,可以通过主要利用 GPT-4 生成的数据集来解释。然而,gpt2-chatbot 确实有一个与 GPT-4 模型不同的速率限制,用于直接聊天:



虽然尚未比较对总速率限制与用户特定速率限制的完整限制,但在每日用户限制以及其他一些总服务限制上比 GPT-4 模型更具限制性。这可能意味着,该模型在计算方面的成本更高,并且提供计算的人更喜欢用户使用 Arena (Battle) 模式来生成基准测试。


如果 LMSYS 是 gpt2-chatbot 的模型创建者,那么该文章的一些结果的应用就可以利用通过 LMSYS 生成的数据集进行训练等。


如果你想试用或者帮助解开 gpt2-chatbot 的身份谜题,现在可以进入到 LMSys 网站(https://chat.lmsys.org/)并选择 gpt2-chatbot。每个用户每天可以测试 8 条消息的直接聊天,之后可以切换到“竞技”模式尝试匹配到该模型选项。另外,尝试时至少需要对所有提示展开三次验证,以获得达到该模型平均能力的结果。


参考链接:

https://rentry.co/GPT2

https://twitter.com/itsandrewgao/status/1785013026636357942

2024-04-30 14:3910035

评论

发布
暂无评论
发现更多内容

Go语言入门—06切片

良猿

Go golang 后端 10月月更

阿里前端二面高频react面试题

beifeng1996

React

HummerRisk V0.4.1发布:新增依赖文件检测功能,优化 AWS 检测规则组,优化资源态势等内容

HummerCloud

云计算 云安全 云原生安全 10月月更 安全合规

即时通讯技术文集(第3期):高性能网络编程系列 [共14篇]

JackJiang

网络编程 即时通讯IM

Java中的super和this关键字详解

共饮一杯无

Java 10月月更 super和this关键字

输入到页面展现到底发生什么?

loveX001

JavaScript

7 步保障 Kubernetes 集群安全

SEAL安全

Kubernetes 云原生 Kubernetes 集群 企业号十月 PK 榜 审计日志

三次握手与四次挥的问题,怎么回答?

loveX001

JavaScript

Vue的开发模式与webpack🔥

渔戈

前端 Vue3 10月月更

Python列表和元组有什么区别

芥末拌个饭吧

后端 python 3.5+ 10月月更

react的jsx和React.createElement是什么关系?面试常问

beifeng1996

React

有奖测评 | 今天种下{1},明天就会收获一片{11.11}——程序员日暨11.11狂欢季来啦

京东科技开发者

云主机 测评 双十一 京东云 程序员日

【kafka运维】Topic的生产和消费运维脚本

石臻臻的杂货铺

kafka kafka运维 10月月更

软件测试 | 测试开发 | 校招面试真题 | 显式等待与隐式等待的区别?与强制等待的方式分别是什么,有什么区别?

测吧(北京)科技有限公司

测试 测试开发

MASA Framework 缓存入门与设计

MASA技术团队

.net MASA Framewrok MASA

DOM,Diff算法与Key机制

beifeng1996

React

数通路由交换之网络基础(一)

Python-派大星

10月月更

软件测试 | 测试开发 | 测试开发工程师必读经典好书清单,抽奖赠书送福利!

测吧(北京)科技有限公司

测试

《Go语言学习路线图》让你少踩坑,高效学,Let’s Go!

王中阳Go

golang 学习方法 技术专题合集 10月月更 “程”风破浪的开发者

直面数字化挑战,戴尔PowerEdge R750最全面的通用服务器

科技热闻

React源码分析4-深度理解diff算法

goClient1992

React

2022年第六届数据质量管理国际峰会重磅开启

数据质量管理智库

数据 数据隐私 数据安全 峰会 数据质量

全彩LED显示屏近年来在中国的发展趋势

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家

软件测试 | 测试开发工程师必读经典好书清单

测试人

软件测试 测试开发 测试工程师 测试书籍

React源码分析3-render阶段(穿插scheduler和reconciler)

goClient1992

React

vue这些原理你都知道吗?(面试版)

bb_xiaxia1998

Vue

以指标驱动业务决策,Kyligence 亮相 Gartner IT Symposium/Xpo™ 峰会

Kyligence

数据分析 指标中台 OLAP技术

计算机网络 ,什么是Internet?什么是协议?TCP/UDP的区别以及优缺点 分组交换与电路交换的区别以及优缺点

Python-派大星

10月月更

前端经典面试题合集

loveX001

JavaScript

openGemini内核源码正式对外开源

华为云开发者联盟

数据库 物联网 华为云 企业号十月 PK 榜

常见的网路设备和网络参考模型,以及常见的网络层协议及数据通信过程

Python-派大星

10月月更

神秘大模型一夜“征服”所有人,超GPT-4却无人认领?网友:OpenAI 要有大麻烦了_生成式 AI_华卫_InfoQ精选文章