普林斯顿大学和耶鲁大学的研究人员发表《大语言模型的思维链推理分析》_AI&大模型_Anthony Alford



 写点什么

登录/注册



大小：580.33K时长：03:18

普林斯顿大学和耶鲁大学的研究人员发表了一项关于大语言模型（LLM）中思维链（Chain-of-Thought，CoT）推理的案例研究，该研究显示了记忆和真实推理的证据。他们还发现，即使提示（prompt）中给出的示例不正确，CoT 也可以工作。

这项研究的动机是研究界一直在争论的 LLM 是否真的可以推理，或者它们的输出是否只是基于启发式和记忆的。该团队使用了一个简单的任务，即解码移位密码，作为他们的案例研究。他们发现，LLM 使用 CoT 提示的表现取决于记忆和团队所说的“嘈杂”推理的混合，以及正确输出的总体概率。根据研究人员的说法：

我们发现有证据表明，CoT 的效果从根本上取决于生成单词的序列，这些单词序列在给定条件下会增加正确答案的概率；只要是这种情况，即使提示中的演示无效，CoT 也可以成功。在关于 LLM 是推理还是记忆的持续争论中，我们的结果因此支持一个合理的中间立场：LLM 行为既表现出了记忆，又表现出了推理，也反映了这些模型的概率起源。

该团队选择了解码移位密码的任务，因为它的复杂性与其用于训练 LLM 的互联网资源中的使用频率之间存在着“明显的分离”。偏移值越大，任务就越困难；然而，最困难的案例也是互联网上最常用的案例：rot-13。如果 LLM 只是简单地记忆，那么它们在 rot-13 上的表现会比真正使用推理更好。相比之下，如果它们真的有推理能力，它们在 rot-1 和 rot-25 上的表现会是最好的，而在 rot-13 上的表现最差。

预期结果和实际结果

该团队创建了一个由 7 个字母组成的单词数据集，GPT-4 也将这些单词标记为 2 个 token。他们还计算了 GPT-2 使用每个单词来完成句子“这个单词是”（the word is）的概率。这使得研究人员能够简单地根据概率来控制 LLM 输出它的可能性。然后，他们制作了这些单词的移位版本，并进行了 GPT-4、Claude 3 和 Llama-3.1-405B-Instruct的实验。

该团队还进行了一项实验，其中要求模型使用算术而不是单词来解码数字序列。该任务与移位密码任务“同构”，但只使用数字。作者发现，在这项任务中，GPT-4 的表现“近乎完美”，并得出结论，它“具有对所有移位值准确执行移位密码任务所需的核心推理能力”。但事实并非如此，他们得出结论，CoT“不是纯粹的符号推理”。然而，他们确实注意到，与“标准”提示相比，CoT 提高了性能，因此 CoT 不是“简单的记忆”。

耶鲁大学教授、研究小组成员 R.Thomas McCoy 在 X 上发布了有关这项工作的信息。在回答另一位用户的问题（该用户想知道不同的 CoT 提示是否会产生不同的结果）时，他写道：

是的，我认为那里有很多值得探索的地方！合著者 Akshara Prabhakar 确实进行了一些很酷的实验，包括在 CoT 中将字母转换为数字。这通常会提高性能，也能得到了一个质量相似的图表。所以这是一个类似的案例。但很可能还有其他情况会给出不同的趋势！

该研究的实验代码和数据可在 GitHub 上找到。

原文链接：

https://www.infoq.com/news/2024/10/cot-reasoning-llms/

创作场景

普林斯顿大学和耶鲁大学的研究人员发表《大语言模型的思维链推理分析》

评论

英特尔 x 波士顿咨询：打造嵌入式安全技术GenAI解决方案，满足企业实际需求

设计原则 — D 依赖反转原则

永远不该忘记！科技才是硬道理，手中没有剑，跟有剑不用，是两回事

Mac打不开后缀名为txt文件，显示文本编码中文不适用

全国标杆！3DCAT实时云渲染助力深圳移动5G+智慧校园建设

windows下docker的安装与镜像的制作提交

NFTScan: 蓝筹 NFT 跌幅严重，如何保持竞争力?

PoseiSwap：合规、隐私与支持更广泛的资产

还在为项目初始化、依赖管理问题困扰？Dubbo Initializer 来了！

如何实现文件共享，文件共享的设置方法

企业移动数字化平台如何赋能企业管理升级？

PHP如何通过rabbitMQ死信队列实现业务的延时/定时操作

TiDB x CAPCOM | 为在线游戏提供灵活、可靠、可扩展的数据库服务

做共享电动车找哪家工厂生产电动车？

宝塔中极速安装的PHP如何使用AMQP连接RabbitMQ

Cloud Kernel SIG月度动态：发布ANCK 5.10、4.19新版本，ABS新增仓库构建功能

搜索接口优化方案——幂集分词表

没关系，前端还死不了

为什么企业选择局域网即时通讯软件？局域网即时通讯软件哪家好?

Electron登录注册桌面应用源码+安装文件的打包方法

构建动态财务模型，打造商业化的全面预算管理模式

网络中的数据传输模式有哪些-镭速

以PHP门面模式实现简单的邮件发送

如何在uni-app中使用fingerprint2实现游客设备标识

最高5W奖金！百度“墨客”挑战邀请赛再启

创作场景

普林斯顿大学和耶鲁大学的研究人员发表《大语言模型的思维链推理分析》

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载