QCon北京|3天沉浸式学习,跳出信息茧房。 了解详情
写点什么

普林斯顿大学和耶鲁大学的研究人员发表《大语言模型的思维链推理分析》

  • 2024-11-19
    北京
  • 本文字数:1175 字

    阅读完需:约 4 分钟

大小:580.33K时长:03:18
普林斯顿大学和耶鲁大学的研究人员发表《大语言模型的思维链推理分析》

普林斯顿大学耶鲁大学的研究人员发表了一项关于大语言模型(LLM)中思维链(Chain-of-Thought,CoT)推理的案例研究,该研究显示了记忆和真实推理的证据。他们还发现,即使提示(prompt)中给出的示例不正确,CoT 也可以工作。

 

这项研究的动机是研究界一直在争论的 LLM 是否真的可以推理,或者它们的输出是否只是基于启发式和记忆的。该团队使用了一个简单的任务,即解码移位密码,作为他们的案例研究。他们发现,LLM 使用 CoT 提示的表现取决于记忆和团队所说的“嘈杂”推理的混合,以及正确输出的总体概率。根据研究人员的说法:

 

我们发现有证据表明,CoT 的效果从根本上取决于生成单词的序列,这些单词序列在给定条件下会增加正确答案的概率;只要是这种情况,即使提示中的演示无效,CoT 也可以成功。在关于 LLM 是推理还是记忆的持续争论中,我们的结果因此支持一个合理的中间立场:LLM 行为既表现出了记忆,又表现出了推理,也反映了这些模型的概率起源。

 

该团队选择了解码移位密码的任务,因为它的复杂性与其用于训练 LLM 的互联网资源中的使用频率之间存在着“明显的分离”。偏移值越大,任务就越困难;然而,最困难的案例也是互联网上最常用的案例:rot-13。如果 LLM 只是简单地记忆,那么它们在 rot-13 上的表现会比真正使用推理更好。相比之下,如果它们真的有推理能力,它们在 rot-1 和 rot-25 上的表现会是最好的,而在 rot-13 上的表现最差。

 


预期结果和实际结果

 

该团队创建了一个由 7 个字母组成的单词数据集,GPT-4 也将这些单词标记为 2 个 token。他们还计算了 GPT-2 使用每个单词来完成句子“这个单词是”(the word is)的概率。这使得研究人员能够简单地根据概率来控制 LLM 输出它的可能性。然后,他们制作了这些单词的移位版本,并进行了 GPT-4、Claude 3 和 Llama-3.1-405B-Instruct的实验。

 

该团队还进行了一项实验,其中要求模型使用算术而不是单词来解码数字序列。该任务与移位密码任务“同构”,但只使用数字。作者发现,在这项任务中,GPT-4 的表现“近乎完美”,并得出结论,它“具有对所有移位值准确执行移位密码任务所需的核心推理能力”。但事实并非如此,他们得出结论,CoT“不是纯粹的符号推理”。然而,他们确实注意到,与“标准”提示相比,CoT 提高了性能,因此 CoT 不是“简单的记忆”。

 

耶鲁大学教授、研究小组成员 R.Thomas McCoy 在 X 上发布了有关这项工作的信息。在回答另一位用户的问题(该用户想知道不同的 CoT 提示是否会产生不同的结果)时,他写道:

 

是的,我认为那里有很多值得探索的地方!合著者 Akshara Prabhakar 确实进行了一些很酷的实验,包括在 CoT 中将字母转换为数字。这通常会提高性能,也能得到了一个质量相似的图表。所以这是一个类似的案例。但很可能还有其他情况会给出不同的趋势!

 

该研究的实验代码和数据可在 GitHub 上找到。

 

原文链接:

https://www.infoq.com/news/2024/10/cot-reasoning-llms/

2024-11-19 10:5410557

评论

发布
暂无评论
发现更多内容

小程序的发布【小程序专题3】

坚果

小程序 28天写作 12月日更

5分钟认识802.11标准,言简意赅!

Ethereal

网络技术 无线技术 网络技术联盟站 802.11

Dubbo框架学习笔记四

风翱

dubbo 12月日更

All in one:如何搭建端到端可观测体系

阿里巴巴云原生

阿里云 云原生 可观测

Spring Boot Serverless 实战系列“架构篇” | 光速入门函数计算

阿里巴巴云原生

阿里云 Serverless 架构 云原生 函数计算

明道云对接小鹅通,沉淀内容付费平台数据

明道云

如何在 AWS 云中从 Amazon EC2 启动 RHEL 8?

Ethereal

云计算 AWS RHEL 8 Amazon EC2

数据分析流程浅析

圣迪

数据分析 数据 CRISP-DM

Apache Log4j2,RASP 防御优势及原理

阿里巴巴云原生

阿里云 云原生 漏洞 可观测 Apache Log4j2

TCP/IP的底层队列

程序员历小冰

网络 TCP/IP 28天写作 12月日更

实用机器学习笔记十六:循环神经网络

打工人!

深度学习 学习笔记 循环神经网络 机器学习算法 12月日更

Go+ XML 编码和解码处理教程(5.5)

liuzhen007

28天写作 12月日更

Python爬虫120例之案例58,手机APP爬虫,“武器库”的准备and皮皮虾APP的测试

梦想橡皮擦

12月日更

读《思辨与立场》-04自我理解

wood

28天写作 批判性思维 思辨与立场

开源轻量级 IM 框架 MobileIMSDK v6.1.2 发布

JackJiang

TCP websocket 即时通讯 IM MobileIMSDK

山的那一边,是什么?(16/28)

赵新龙

28天写作

100行代码让您学会JavaScript原生的Proxy设计模式

汪子熙

JavaScript 设计模式 代理模式 28天写作 12月日更

明道云荣获2021亚洲最佳职场“最佳创新奖”荣誉!

明道云

JavaScript操作 DOM 的这些事件基础

你好bk

JavaScript 前端 DOM BOM WebApi

当我们在聊高可用时,我们其实在聊什么?

xcbeyond

28天写作 12月日更

DotNetCore 开发工具箱之调度小能手——Coravel

为自己带盐

dotnet 28天写作 12月日更 Coravel

管理中的推理事件随笔

搬砖的周狮傅

随笔杂谈 推理

如何基于 Docker 快速搭建 Springboot + Mysql + Redis 项目

秦怀杂货店

Java redis Docker springboot redis sentinel

React进阶(七):props 属性介绍

No Silver Bullet

React 12月日更 props

什么是Kubernetes?Kubernetes是怎样工作的?

Ethereal

云计算 Kubernetes

数据库牛人是如何进行SQL优化的?

Ethereal

数据库 sql SQL优化

【docker 总结】第四篇 - 镜像和容器操作

Brave

Docker 12月日更

Android aapt 在 Mac 和 Windows 上使用方法小结

阿策小和尚

28天写作 Android 小菜鸟 12月日更

[Pulsar] Pulsar Resources介绍

Zike Yang

Apache Pulsar 12月日更

Enum Parse 中的坑

喵叔

28天写作 12月日更

前端开发:Vue中获取input输入框值的方法

三掌柜

28天写作 28 12月日更 12月

普林斯顿大学和耶鲁大学的研究人员发表《大语言模型的思维链推理分析》_AI&大模型_Anthony Alford_InfoQ精选文章