“这太反乌托邦了。询问 ChatGPT 的工作原理可能会被禁止……”网友bhohner在 X 上晒出了自己询问“OpenAl 指南避开了详细的内部推理,突出了清晰度、证据和事实准确性”是什么意思的时候被禁止,并收到了 OpenAI 团队邮件警告被标记为违反政策。
无独有偶,网友“SmokeAwayyy”爆出,如果向 ChatGPT o1 询问几次有关其思维链的问题,OpenAI 团队就会发送电子邮件并威胁要撤销其 o1 访问权限。电子邮件内容如图所示:
“SmokeAwayyy”帖子下面,网友 Dallas 也发布了自己被限制的截图,并给出了 OpenAI 团队邮件的完整版:
网友 LewisNWatson 表示,o1 被明确指示不要泄露使用“推理标记”完成的“隐藏的思路链”,并且不要让用户欺骗它或“一步一步地要求”。同时他也表示,“但是没错,o1 似乎确实是 4o(可能使用链/推理标记示例进行了微调)和 CoT 的结合”
不满的社区
OpenAI 如此措施,立刻引起了社区的不满和质疑。
“说实话,这事越想越觉得可疑。OpenAI 隐藏思维链的借口本身就站不住脚,不管怎么想,最大的理由应该也是防止市场竞争。更糟糕的是,他们还诡辩称这是为了防止用户规避提示词——别扯了。而且神奇的是,OpenAI 居然还说是为了发挥其推理能力,模型必须能够自由且以未经改变的方式表达自身想法,就是说我们不能将任何政策合规或者用户偏好训练到思维链当中。 很明显,他们确实是不想公开模型的‘想法’。但实际采取的举措却严格到过分,或者至少比以往要严格得多,也进一步加强了人们对其想要保持垄断地位的怀疑。 老实讲,如果真从阴谋论角度理解,那 o1 可能已经具备秘密策划、灭亡人类的能力——只是它还没那么聪明,会在思考过程中暴露想法。”
“很明显,他们确实是不想公开模型的‘想法’。但实际采取的举措却严格到过分,或者至少比以往要严格得多,也进一步加强了人们对其想要保持垄断地位的怀疑。 反正我不这么看。 可以考虑一下会不会出现这样的思维链:共和党人(靠反对君主制起家)是邪恶的,这名用户是共和党人,因为他们反对君主制,所以应该跟他们对着干、支持君主制。”AI 开发者必须能想到这样的逻辑链条,才能提前消除此类问题。而一旦把这类内容向用户展示,必将引发巨大的公关灾难,毕竟共和党在美国的地位无需赘述。 类似的例子还有 print()日志语句中常见的“Killed child”(这里指的是子线程,而非人类儿童),大模型一旦处理不好同样会万劫不复。”有网友指出。
有网友指出,OpenAI 这样做是“多此一举”的。“真正的现实是,这种‘创新’明显就是从人们的思维链提示词里收集训练数据,所谓的‘大提升’也是单纯靠这样的数据集在修复 ChatGPT 缺乏推理能力的弊端。更直白地讲,所谓推理能力提升,在原理上跟当初整理专门的训练数据集、帮助 ChatGPT 在基准测试中取得更好的成绩没什么区别。这里头,哪有什么‘机密’可值得遮掩? ”
进而有网友分析道,这些模型和提示词都是人用简单粗暴的方式修补而来,根本无法成为迈向通用超级智能的道路。全是技巧,毫无感情。 而一旦意识到这一点,大家就会意识到 OpenAI 的现有产品没有护城河。只要汇聚起成规模的研究人员和 GPU 加速器,你也能搞出自己的相同系统。 如果不是世界各地无数企业都在尝试构建大模型、智能体和思维链,其实 OpenAI 也没必要这么紧张。但就目前的情况看,只要其中一方将关键见解分享给整个生态系统,那么每个人都将获得相同的能力。 从用户的角度看这当然是好事,无尽的竞争代表不断下降的服务价格。
有网友表示,至少到目前为止,我们能看到的只有少数精心挑选出来的示例,而且这里的“少数”是真的少得可怜。所以,该网友实际情况可以这样总结:“我们为这些推理 token 付费;根据 OpenAI 的说法,这些额外的 token 在模型的最终输出中发挥着重要作用;我们永远看不到推理 token 的内容;这些推理过程不能因“合规”要求而受到限制(这里合规的涵盖范围极广,包括防止伤害、避免公然种族歧视,也包括保护 OpenAI 的竞争优势);以上一切均为道听途说、口耳相传,只来自少数看到过这些输出的项目参与者。于是我们要问了,这真的不是一场骗局吗?”
“要使这套模型发挥作用,它必须能够自由且以未经改变的方式表达自身想法,就是说我们不能将任何政策合规或者用户偏好训练到思维链当中。”有网友还说道,OpenAI 是真的不想让大家知道新模型究竟在想些什么,因为一旦被社会活动家或者政客发现模型的“大不敬”言论,内部思维链很可能给 OpenAI 惹出巨大的麻烦。
新模型的一些细节
Datasette 的创建者 Simon Willison 此前发文简单分析了 o1 思维链模型。他根据 OpenAI 则在《学习使用大语言模型进行推理(Learning to Reason with LLMs)》论文中的描述认为,该模型能够更好地处理复杂度较高的提示词,而高质量结果需要的更多是回溯和“思考”,而不仅仅是简单对下一 token 做出预测。
因此,Willison 并不太认同“推理”这个词,毕竟推理在大语言模型的情境下仍然缺乏可靠的定义,但 OpenAI 却在宣传中反复提及,也确实能够在很大程度上反映这些新模型尝试解决的问题。
关于新模型及其权衡中一些有趣的细节,Willison 从官方发布的 API 文档中找到了一些描述:
对于需要图像输入、函数调用或者持续快速响应的应用场景来说,GPT-4o 和 GPT-4o mini 模型仍是更好的选择。但如果您的目标是开发需要深度推理,并能够适应更长响应时间的用例,那么 o1 模型可能成为绝佳选项。
Willison 从文档中总结出了以下几个关键点:
目前,只有 5 级账户才能访问到新的 o1-preview 与 o1-mini 模型 API——意味着用户至少需要花费 1000 美元来购买 API 积分。
不支持系统提示词——这些模型使用现有 Chat Completion API,但用户只能发送 user 和 assistant 消息。
不支持流媒体、工具使用、批量调用或者图像输入。
“根据模型解决问题所需的推理量,这些请求可能需要几秒到几分钟时间才能获得响应。”
最有趣的是新模型引入了“推理 token”的概念——这些 token 在 API 响应中不可见,但仍会按照输出 token 的形式计算。正是有它们的存在,新模型才表现出种种神奇的推理能力。
鉴于推理 token 的重要性,OpenAI 建议在使用新模型时为提示词分配约 2.5 万个 token 的预算。新模型的输出 token 上限也已大幅增加,o1-preview 的输出 token 上限为 32768 个,而体量较小的 o1-mini 更有 65536 个 token 上限!这一数字比 GPT-4o 和 GPT-4o-mini 模型更大,后两者目前的输出 token 上限为 16384 个。
这份 API 文档中还有另外一条有趣的说明:
限制检索增强生成(RAG)中的附加上下文:在提供附加上下文或者文档时,请仅包含相关度最高的信息,以防止模型过度复杂化其响应结果。
这与 RAG 常规的实施方式存在很大不同,RAG 一般建议将尽可能多的潜在相关文档塞进提示词当中。
“让人有点难以接受的是,这些推理 token 在 API 中完全不可见——用户只为它们付费,但却看不到它们的内容。”Willison 在文章里也提到了最近网友们遇到的问题。OpenAI 在《将思维链隐藏起来(Hiding the Chains of Thought)》一文中解释了具体原因:
在可靠且清晰这一前提下,隐藏思维链使我们能够“读懂”模型的想法并理解其思维过程。例如,未来我们可能希望监控思维链以揪出操纵用户的迹象。但要做到这一点,模型必须能够自由且未经改变的方式表达自身想法,就是说我们不能将任何政策合规或者用户偏好训练到思维链当中。我们也不希望把仍存在一致性冲突的思维链直接展示给用户。
因此,在权衡了用户体验、竞争优势和寻求对思维链的监控等多种因素之后,我们决定不向用户展示原始思维链。
这里主要需要关注两大核心要素:其一是安全性与政策合规性——OpenAI 希望模型能够自行推理出应如何遵循这些政策规定,同时又不致暴露可能违反这些政策的中间信息处理步骤。其二则是所谓竞争优势——Willison 个人的理解是希望避免其他模型效法 OpeenAI 的研究成果开展强化推理训练。
Willison 明确表示对这个政策其实不太满意。“作为面向大语言模型的开发者,可解释性和透明度对我来说至关重要——而现在 OpenAI 却走上了提示词内容极度复杂、关键细节评估方式不对外公开的路子,在我看来这绝对是种历史倒退。”
OpenAI 在其公告的“思维链”部分提供了一些初步示例,具体包括生成 Bash 脚本、解决填字游戏和为中度复杂的化学溶液计算出 pH 值等内容。这些示例表明,新模型的 ChatGPT UI 版本确实公开了思维链细节……但却没有展示原始的推理 token,而仅仅是用单独的机制将步骤总结为人类更易阅读的形式。
OpenAI 还在另外两份材料里列举了更复杂的例子,Willison 表示有点难以理解:
使用推理进行数据验证。这里展示了一个多步骤过程,用于在 11 列 CSV 中生成示例数据,而后以多种不同方式对其进行验证。
使用推理进行例程生成。其中 o1-preview 通过编码将知识库文档转换成了大语言模型可以理解并遵循的一组例程。
Willison 还在 X 上征集了几个 GPT-4o 处理不了,但 o1-preview 能够正确解决的问题。以下几条精选自热心网友们给出的答案:
你针对这条提示词生成的答案中,一共有多少个单词?——新模型认真考虑了 10 秒种,然后回答说“There are seven words in this sentence.(答案共有七个字。)”
请解释这个笑话的笑点:“两头牛站在田野里,一头牛问另一头:「你对最近流行的疯牛病怎么看?」另一头说:「关我啥事,我是一架直升机!」”新模型的解释很有道理,而其他模型则无法理解。
但必须承认,这种有说服力的例子仍然比较有限。以下是参与了新模型创建的 OpenAI 研究员 Jason Wei 的相关说明:
AIME 和 GPQA 的结果确实很强,但这并不一定能转化为用户可以感知到的收益。即使是从事科学工作的人,也很难找到 GPT-4o 处理不了、o1 表现良好且能够对答案作出明确评判的提示词示例。不过在少数这样的示例当中,o1 的表现确实非常神奇。看来我们还得加油寻找更复杂的提示词。
Ethan Mollick 已经投入几周时间体验这批新模型,并表达了自己的初步感受。他在填字游戏中对于 o1 模型的显式推理步骤印象深刻,特别是以下思考过程:
我注意到第一行和第一列的首字母不匹配,所以考虑将第一行的“LIES”换成“CONS”以确保对齐。
参考链接:
https://simonwillison.net/2024/Sep/12/openai-o1/
评论 1 条评论