写点什么

普林斯顿大学和耶鲁大学的研究人员发表《大语言模型的思维链推理分析》

  • 2024-11-19
    北京
  • 本文字数:1175 字

    阅读完需:约 4 分钟

大小:580.33K时长:03:18
普林斯顿大学和耶鲁大学的研究人员发表《大语言模型的思维链推理分析》

普林斯顿大学耶鲁大学的研究人员发表了一项关于大语言模型(LLM)中思维链(Chain-of-Thought,CoT)推理的案例研究,该研究显示了记忆和真实推理的证据。他们还发现,即使提示(prompt)中给出的示例不正确,CoT 也可以工作。

 

这项研究的动机是研究界一直在争论的 LLM 是否真的可以推理,或者它们的输出是否只是基于启发式和记忆的。该团队使用了一个简单的任务,即解码移位密码,作为他们的案例研究。他们发现,LLM 使用 CoT 提示的表现取决于记忆和团队所说的“嘈杂”推理的混合,以及正确输出的总体概率。根据研究人员的说法:

 

我们发现有证据表明,CoT 的效果从根本上取决于生成单词的序列,这些单词序列在给定条件下会增加正确答案的概率;只要是这种情况,即使提示中的演示无效,CoT 也可以成功。在关于 LLM 是推理还是记忆的持续争论中,我们的结果因此支持一个合理的中间立场:LLM 行为既表现出了记忆,又表现出了推理,也反映了这些模型的概率起源。

 

该团队选择了解码移位密码的任务,因为它的复杂性与其用于训练 LLM 的互联网资源中的使用频率之间存在着“明显的分离”。偏移值越大,任务就越困难;然而,最困难的案例也是互联网上最常用的案例:rot-13。如果 LLM 只是简单地记忆,那么它们在 rot-13 上的表现会比真正使用推理更好。相比之下,如果它们真的有推理能力,它们在 rot-1 和 rot-25 上的表现会是最好的,而在 rot-13 上的表现最差。

 


预期结果和实际结果

 

该团队创建了一个由 7 个字母组成的单词数据集,GPT-4 也将这些单词标记为 2 个 token。他们还计算了 GPT-2 使用每个单词来完成句子“这个单词是”(the word is)的概率。这使得研究人员能够简单地根据概率来控制 LLM 输出它的可能性。然后,他们制作了这些单词的移位版本,并进行了 GPT-4、Claude 3 和 Llama-3.1-405B-Instruct的实验。

 

该团队还进行了一项实验,其中要求模型使用算术而不是单词来解码数字序列。该任务与移位密码任务“同构”,但只使用数字。作者发现,在这项任务中,GPT-4 的表现“近乎完美”,并得出结论,它“具有对所有移位值准确执行移位密码任务所需的核心推理能力”。但事实并非如此,他们得出结论,CoT“不是纯粹的符号推理”。然而,他们确实注意到,与“标准”提示相比,CoT 提高了性能,因此 CoT 不是“简单的记忆”。

 

耶鲁大学教授、研究小组成员 R.Thomas McCoy 在 X 上发布了有关这项工作的信息。在回答另一位用户的问题(该用户想知道不同的 CoT 提示是否会产生不同的结果)时,他写道:

 

是的,我认为那里有很多值得探索的地方!合著者 Akshara Prabhakar 确实进行了一些很酷的实验,包括在 CoT 中将字母转换为数字。这通常会提高性能,也能得到了一个质量相似的图表。所以这是一个类似的案例。但很可能还有其他情况会给出不同的趋势!

 

该研究的实验代码和数据可在 GitHub 上找到。

 

原文链接:

https://www.infoq.com/news/2024/10/cot-reasoning-llms/

2024-11-19 10:5411007

评论

发布
暂无评论
发现更多内容

大咖说·阿里云教育|“网上浙大”数字化之路

大咖说

数字化 高校

数据代码如何“产地直销”,做到持续集成持续发布?

数造万象

深耕数字办公,华为云桌面怎样带来高效办公体验?

路过的憨憨

那些专注小程序语法编译的跨端开发平台

FinFish

前端框架 跨端开发 跨端框架 前端开发框架 前端开发平台

【5000字长文】从 S3 到 DataZone,亚马逊云科技用16年讲完一个数据的故事

亚马逊云科技 (Amazon Web Services)

亚马逊云科技 Builder 专栏

DevSecOps 需要知道的十大 K8s 安全风险及建议

SEAL安全

k8s DevSecOps 12 月 PK 榜

今明两天,eBPF 技术探索和 Intel Arch 两大技术 SIG 继续开讲 | 第 57-58 期

OpenAnolis小助手

开源 ebpf intel 龙蜥大讲堂 浪潮信息

LED显示屏企业需要抓住直播的风口吗?

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家

「Go框架」http请求处理流程: gin、beego等web框架是如何处理http请求的?

Go学堂

golang 开源 程序员 个人成长 12月月更

三个延伸打法,撑起华为云桌面的7年领跑

路过的憨憨

隐私计算之多方安全计算(MPC,Secure Multi-Party Computation)

京东科技开发者

大数据 隐私安全 多方安全 MPC OT

无魅友,不魅族!魅族大力推广魅友文化,用行动阐述何为用户共创

极客天地

Code Review到底在关注些什么?

孟君的编程札记

Java CodeReview

转转AB平台的设计与实现

转转技术团队

大数据 A/B 测试

【2023】合肥市等保测评有哪些公司?地址在哪里?

行云管家

等级保护 等保测评 等保2.0 合肥

国产ETL 星光不问赶路人 时我不待

weigeonlyyou

oracle Prometheus Clickhouse MySQL 数据库 InfluxDB Cluster

开发者可以选择哪些小游戏分发平台?

FN0

小游戏 小游戏开发 小程序化

前端开发培训后可以从事哪些方面的工作

小谷哥

安装 Azure CL 并生成 service principal 文件

HummerCloud

云计算 azure

基于聚类算法的话术挖掘技术及在营销服场景的落地应用

中关村科金

人工智能 大数据 算法 对话机器人 技术实践

DAG任务调度系统 Taier 演进之道,探究DataSourceX 模块

袋鼠云数栈

开源

支持API 9的Sample已上新,速来拿走

HarmonyOS开发者

HarmonyOS

web前端培训机构怎么选?

小谷哥

尚硅谷发布JDBC新版视频教程

小谷哥

昇腾CANN:为你开启机器人开发的Buff 加成

华为云开发者联盟

人工智能 华为云 昇腾AI 12 月 PK 榜

高可用软件什么意思?哪些高可用软件好用?

行云管家

高可用 双机热备 高可用软件

学习大数据开发技术能参加培训吗?

小谷哥

老板要的物联网可视化大屏,我30分钟就搞定了

华为云开发者联盟

物联网 华为云 12 月 PK 榜

大数据开发技术有好的培训机构吗

小谷哥

Java高手速成│编写你第一个数据库程序

TiAmo

JDBC 数据库· 12月月更

普林斯顿大学和耶鲁大学的研究人员发表《大语言模型的思维链推理分析》_AI&大模型_Anthony Alford_InfoQ精选文章