HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

神秘大模型一夜“征服”所有人,超 GPT-4 却无人认领?网友:OpenAI 要有大麻烦了

  • 2024-04-30
    北京
  • 本文字数:2056 字

    阅读完需:约 7 分钟

大小:1.00M时长:05:49
神秘大模型一夜“征服”所有人,超GPT-4却无人认领?网友:OpenAI 要有大麻烦了

整理 | 华卫


昨晚,一个突然出现在 LMSys 基准测试网站的神秘模型,在大模型领域掀起了巨大波澜。用过的人都在夸,刚发布服务器就被挤爆,奥特曼也迅速出现在吃瓜现场...


而这一切的主角,就是 gpt2-chatbot。没有出处,也没有介绍,在没有官方文件的情况下,一夜间“惊艳”所有人的视线。


有人认为 gpt2-chatbot 可能是 OpenAI 的下一个模型,还有人说它是 GPT-4.5 或 5 的 beta 测试,甚至有评价称这可能是对 GPT 架构的根本升级。尽管该模型的系统提示表明它来自 OpenAI,但 gpt2-chatbot 却拒绝引用 OpenAI。


有意思的是,在众人猜测 gpt2-chatbot 身份的时刻,Open AI 的 CEO Sam Altma 发帖表达了对 gpt2-chatbot 的喜爱:“我确实对它情有独钟。”


对此,有网友评价说:“如果不是 ChatGPT 的新版本,OpenAI 就有麻烦了!” 也有网友表示,“希望它不是 GPT-5,这个模型很难完成 Opus 擅长的推理任务。”


以下是部分用户对 gpt2-chatbot 的测试重点总结:

  • gpt2-chatbot 一直声称“基于 GPT-4”并具有“v2”个性,并称自己为 ChatGPT。

  • 其呈现自己的方式,通常与其他在 OpenAI 数据集上训练的模型的幻觉回复不同。

  • 它似乎使用了 OpenAI 的 tiktoken 分词器,对 OpenAI 使用的特殊 token 有反应,且对 Claude/Llama/Gemini 使用的特殊 token 没有反应。

  • 当需要提供联系方式时,gpt2-chatbot 会始终如一地给出 OpenAI 的信息,甚至比 GPT-3.5/4 的更详细。

  • 它表现出特定于 OpenAI 的提示注入漏洞,且从未声称属于 OpenAI 以外的任何其他实体组织。

  • 对于相同的提示,gpt2-chatbot 始终提供与 Anthropic、Meta、Mistral、Google 等模型不同的输出。


效果领先多个模型


gpt2-chatbot 一经发布,众多用户都涌入这一模型测试其在各领域的表现。从公开平台的反馈来看,该模型在多方面的能力和实际效果都赶上甚至超过许多其他的前沿模型。


例如,gpt2-chatbot 可以在 PyOpenGL 中一次性生成旋转 3D 立方体, 而 GPT-4、Gemini-1.5 和 Claude-3 需要尝试三次才可以。



在解决兄弟姐妹之谜时,gpt2-chatbot 得出和 GPT-4 Turbo 相同的结果。



除这两个案例外,还有许多网友抛出了 gpt2-chatbot 在解决各类问题时的优秀能力。

网友 @Andrew Gao:gpt2-chatbot 一口气正确解决了 IMO(数学奥林匹克)问题。



网友 @murat :该模型可以解决一些 GPT-4 做不到的事情,如 A+B-1 的数学问题,打破了非常强的学习惯例。



网友 @Phil:用 gpt2-chatbot 制作 ASCII 艺术的效果领先于任何其他模型。



网友 @murat :gpt2-chatbot 第一次尝试就解决了在 Claude Opus 、GPT4 和 llama3-70b 模型上失败的 TypeScript 编写问题,并且没有错误。



不仅在复杂的代码操作任务以及用于测试新模型的所有编码提示上,gpt2-chatbot 比 Claude Opus 以及最新的 GPT-4 更好。当被要求规划 LLM 代理的计划以帮助用户预订晚餐时,gpt2-chatbot 也能给出出色的响应。


模型的神秘来源


“在我看来,这个神秘模型很可能是 GPT-4.5 或 GPT-5,或者实际上是一个真正的 GPT-2 模型,由 OpenAI 或 LMSYS 提供。总的来说,它输出的内容质量,特别是格式、结构和整体理解,绝对是一流的。对我来说,这感觉就像是从 GPT-3.5 到 GPT-4 的一步,但以 GPT-4 为起点。”

关于 gpt2-chatbot 的公开网页介绍(非官方)


当需要提供联系方式时,gpt2-chatbot 会始终如一地给出 OpenAI 的信息,甚至比 GPT-3.5/4 的更详细。而且,该模型使用 OpenAI 的 token 分词器,对 OpenAI 使用的特殊 token 有反应。

一种猜测认为,gpt2-chatbot 实际上是基于 GPT-2 架构的,其表现出的能力大大超出了任何以前已知的 GPT-2 模型。


另一种可能性是,它实际上是一个 GPT-2 模型。最近(2024 年 4 月 7 日)Meta/FAIR Labs 和 Mohamed bin Zayed AI University of AI (MBZUAI) 的一篇题为《语言模型物理学:第 3.3 部分,知识容量缩放定律》的文章深入研究了 GPT-2 架构的细节,并确定:“ GPT-2 架构在知识存储方面与 LLaMA/Mistral 架构相当甚至超过,尤其是在较短的训练持续时间内。”


至于该模型被认为是 GPT-4 的强烈说法,可以通过主要利用 GPT-4 生成的数据集来解释。然而,gpt2-chatbot 确实有一个与 GPT-4 模型不同的速率限制,用于直接聊天:



虽然尚未比较对总速率限制与用户特定速率限制的完整限制,但在每日用户限制以及其他一些总服务限制上比 GPT-4 模型更具限制性。这可能意味着,该模型在计算方面的成本更高,并且提供计算的人更喜欢用户使用 Arena (Battle) 模式来生成基准测试。


如果 LMSYS 是 gpt2-chatbot 的模型创建者,那么该文章的一些结果的应用就可以利用通过 LMSYS 生成的数据集进行训练等。


如果你想试用或者帮助解开 gpt2-chatbot 的身份谜题,现在可以进入到 LMSys 网站(https://chat.lmsys.org/)并选择 gpt2-chatbot。每个用户每天可以测试 8 条消息的直接聊天,之后可以切换到“竞技”模式尝试匹配到该模型选项。另外,尝试时至少需要对所有提示展开三次验证,以获得达到该模型平均能力的结果。


参考链接:

https://rentry.co/GPT2

https://twitter.com/itsandrewgao/status/1785013026636357942

2024-04-30 14:399975

评论

发布
暂无评论

当容器应用越发广泛,我们又该如何监测容器?

阿里巴巴云原生

云计算 容器 云原生 监控 中间件

直击美团“远程面试”现场,面试官竟反问:你真懂数据库事务吗?

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

数据中台——数据汇聚存储技术解析

用友BIP

数据中台 数据存储

高防服务器,企业成长安全控制有效性的关键工具

九河云安全

拒绝内卷!Github连夜封杀的阿里全套Spring Security高级笔记

Java 编程 架构 面试 程序人生

Go 学习笔记之 Channels

架构精进之路

Go 语言 8月日更

【插画】一文看懂容器k8s

恒生LIGHT云社区

Docker 容器 k8s

某离散制造行业龙头客户“主数据管理平台”建设分享

用友BIP

主数据管理

数据中台为什么要建标签体系,分类它不香吗?

用友BIP

数据中台 标签体系

【LeetCode】第一个只出现一次的字符Java题解

Albert

算法 LeetCode 8月日更

数据库的简述与常用操作指南

行者AI

数据库

c++ 构造函数详解

若尘

c++ 构造函数 8月日更

闭关修炼21天,“啃完”283页pdf,我终于4面拿下字节跳动offer

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

耗时3年,从小厂逆袭,坐上美团L8技术专家(面经+心得)

Java 编程 程序员 架构 面试

零代码上线小布对话技能:技能平台的实践与思考

OPPO小布助手

人工智能 自然语言处理 算法 零代码 语义理解

云小课 | 到底什么是区块链?

华为云开发者联盟

区块链 华为云 区块链的定义 区块链的解决方案 区块链的发展

云计算运维与传统运维工作有啥不同?需要什么资质?

行云管家

云计算 服务器 IT运维 云计算运维

阿里(钉钉部门)远程面,三面坐上“直通车”,拿下offer没问题

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

2年5个月13天,从外包到拿下阿里offer,没想到屌丝也能有今天

Java~~~

Java spring 架构 面试 微服务

读完这份JVM高级笔记,彻底玩转Java虚拟机,面试再也不用“虚”

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

FastApi-11-模板渲染

Python研究所

FastApi 8月日更

AIMA:如何通过质量指标提高QA的绩效(译)

BY林子

软件测试 绩效 QA

uni-app技术分享| 怎么用uni-app实现呼叫邀请

anyRTC开发者

uni-app 音视频 呼叫邀请 点对点呼叫

Compose 可组合项的生命周期

Changing Lin

8月日更

信创产业已成现象级新风口,快来加入争做“弄潮儿”

华为云开发者联盟

开源 信创 opengauss openEuler 鲲鹏

测试开发之系统篇-Docker容器安装

禅道项目管理

Docker 测试开发

为构建大型复杂系统而生的微服务框架 Erda Infra

尔达Erda

开源 程序员 微服务 云原生 运维开发

1年半经验,2本学历,Curd背景,竟给30K,我的美团Offer终于来了

Java~~~

Java 架构 面试 微服务 多线程

差点跳起来了!全靠这份999页Java面试宝典,我刚拿到美团offer

Java~~~

Java 架构 面试 微服务 多线程

Go 效率工具集合

潇洒哥 - 老苗

Go 语言

跨链治理之入门三问 :WHO WHAT HOW

趣链科技

区块链 治理机制

神秘大模型一夜“征服”所有人,超GPT-4却无人认领?网友:OpenAI 要有大麻烦了_生成式 AI_华卫_InfoQ精选文章