QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

血泪控诉:曝光数月的 AMD 微代码 bug 毁掉了我的周末

  • 2019-11-01
  • 本文字数:5049 字

    阅读完需:约 17 分钟

血泪控诉:曝光数月的AMD微代码bug毁掉了我的周末

AMD 公司发布的 Ryzen 3000 处理器中,存在一项与随机数生成器相关的严重微代码 bug。也正是因为这个早已曝光数月却没有得到有效解决的“错误”,本篇文章的主人公 Jim Salter 度过了一个非常糟糕的周末。你能想象,一整天都在跟踪错误的问题,寻找 bug 原因的场景吗?



Ryzen 3000 的 RDRAND 函数(本应成为一款高质量的伪随机数生成器)每次都会返回 0xFFFFFFFF,修复过程也是相当煎熬。


上周末,Jim 怀着激动的心情坐在家中的工作间里,在他打算部署自己的第一台 Ryzen 3000 工作站时,却遗憾的发现,AMD 的一项微代码 bug(最初公布于今年 7 月,但直到现在仍广泛存在于各类系统当中)打破了这美好的幻想。


虽然 Jim 经过努力,让这套 Ryzen 3700X 系统恢复了正常,而且速度也相当惊人,但他不得不承认的是:AMD 的微代码 bug 仍然存在,而且现在缺少简单易行的修复方法。


事实上,在 Ryzen 3700X 发布后不久,AMD Ryzen 3000 的使用者就已经发现了这款崭新的 CPU 存在问题:Windows 用户无法顺利启动 Dstiny 2(原因是存在电源管理 bug,不过困扰 Jim 的倒不是这个问题),Linux 用户甚至发现自己经常无法正常启动系统。


福布斯杂志作者 Jason Evangelho 在今年 7 月的文章中报告了初步现象与总结意见,AMD 公司的代表则通过电子邮件发出了回复声明:


AMD 公司已经确认了引发问题的根本原因,并对 BIOS 程序进行了修复,旨在解决 Ryzen 3000 处理器无法运行某些 Linux 发行版以及 Destiny 2 的功能问题。我们已经将更新后的 BIOS 发放给各主板合作伙伴,希望消费者能够在未来几天之内使用到新的 BIOS。


AMD 的回应乍听起来似乎不错,AMD 自己的态度也很乐观,但现实情况却并非如此。因为一旦 CPU 的微代码中存在 bug,就只能由主板供应商发布新的系统 BIOS 才能实现修复。换句话说,用户并不能简单通过 AMD 提供的下载链接自行安装修复。


而且 AMD 方面虽然在今年 7 月就做出了回复,但截至到目前为止,AMD 方面也仅仅只是发送了通知邮件而已。它并没有在其他渠道做出任何的相关提醒,不仅没有新闻稿,而且这封邮件看起来诚意略显不足,仿佛在说这只是一个能够在一两周之内轻松解决的小问题。


现在,已经过去三个月的今天,踩了坑的 Jim 表示:AMD 的微代码 bug 问题非常严重。

从 RDRAND 开始

存在 bug 的代码会对 RDRAND 指令做出错误的响应,而这个 bug 之所以非常严重,则需要从 RDRAND 说起。


事实上,从英特尔的 Broadwell 以及 AMD Zen 架构开始,现代 x86_64 CPU 必须内置高质量的板载随机数生成器(RNG),负责利用热“噪声”快速向具有内核级访问权限的用户提供高熵伪随机数。而 RDRAND,正是触发随机数生成的指令。


AMD 的整个设计体系本应该非常安全,然而真实的情况却存在一些偏差。


首先是一条 CPUID 函数调用,用于检查 RDRAND 的可用性;此外,RDRAND 调用的返回值中还包含一条“进位”,该位会在 CPU RNG 无法生成足够的随机数时通知作为调用方的应用程序。遗憾的是,在安装修复补丁之前,Ryzen 3000 会对 CPUID 01H 调用回应“yes”,并将进位设置为“1”,表明其已经成功创建了有机高质量随机数……同时每一次的“随机”数都被赋值为了 0xFFFFFFFF。



只有在足够广泛的数据集当中,连续 20 个 0xFFFFFFFF 才可能被视为有效的“随机”分组。但在大多数情况下,我们使用的数据集都没那么广泛。



大家不要尝试使用/dev/hwrng 来检查自己的设备是否受到 AMD 微代码 bug 的影响,这是因为/dev/hwrng 可能会从其他来源获取数据。在 Jim 的案例中,它倒确实是从 RDRAND 处获取数据,这让 Jim 很快就发现了问题。

RDRAND bug 的主要影响

今年 6 月,Ryzen 3000 中的 RDRAND bug 首次被发现时,Linux 用户开始大量发布报告,表示自己基于 Ryzen 3000 的操作系统无法正常启动。而引导失败正是由 systemd 使用 RDRAND 引发的;不过遗憾的是,这已经不是 systemd 第一次与 AMD CPU 上存在问题的随机数生成器发生冲突了。


早期一批 CPU 中存在的一项 bug,会导致某些 AMD 系统在从挂起状态恢复至正常工作状态后停止生成正确的“随机”数。而此次发生的新 bug,则会导致 Ryzen 3000 用户全程得不到任何合适的随机数。这两个问题,都导致了 systemd 在 Linux 操作系统中被长期锁定。因此今年 5 月,systemd 提交了一项修复程序,如果 systemd 从 RNG 得到的返回值为 0xFFFFFFFF,则该修复程序会转而使用备用 RNG 源。(但这种修复方式本身也有问题,因为从技术上讲 0xFFFFFFFF 是个完全有效的随机数——因此,只要经过足够长的时间,systemd 终究会在收到这个哪怕本应正确的随机数时,将其误判为错误状况,而后再直接切换至 RNG。)


Systemd 的补丁虽然做的很一般,但确实能够让操作系统顺利启动。只是它并不能真正从根本上解决问题,毕竟这种治标不治本的方式压根没有触及到随机数生成器那个层面。


Jim 在自己的系统上,用了一整个周末的时间,跟踪一个个错误问题。这个过程让 Jim 非常抓狂。


Jim 首先怀疑问题来自系统上安装的全新 RX 590 显卡,然后就一次次更新操作系统发行版以及内核版本。但这些更新根本没用。



崭新的系统不断报出一个个讨厌的 BUG:软锁定——22 项错误彻底卡住了 PU#n,并迅速令系统整体陷入瘫痪。/var/log/syslog 中的调用信息也没什么指导意义,不过至少让 Jim 找到了第一条线索。


最终,在经历了一系列尝试、气急败坏的咒骂、无数杯咖啡和几口小酒之后,Jim 终于把 CPU 的频繁锁定与调用跟踪记录联系了起来。因为 Jim 发现,在每一次跟踪中,都会出现“WireGuard”的身影。


Jim 称:事实证明,WireGuard 依靠 RDRAND(如果可用)生成新的会话 ID。会话 ID 必须唯一,WireGuard 还要求其不是简单的连续整数,因此它会从 RDRAND 中获取伪随机值,将其与现有会话 ID 清单进行比较以确保不存在冲突,而后将该 ID 分配给新会话。


请注意这里的最后一句“确保不存在冲突“,它的意义在于,如果现有会话同新会话拥有相同的 ID,则 WireGuard 会向 RDRAND 请求另一个“随机”数,并再次检查其唯一性,依此类推。由于系统上的 RDRAND(以及任何未经更新的 Ryzen 3000 系统)始终返回 0xFFFFFFFF,因此这个过程就会无限循环。内核代码发生无限循环当然不是什么好事,紧随其后的必然是系统崩溃与硬件重启。


但,问题并不是出在 WireGuard 身上!WireGuard 正确地检查了 RDRAND 是否可用、是否给出一个值,以及该值是否正确设置了进位。它的责任,就是确保不仅获得了一个值,而且确定该值确实是适当的随机值。然而即使这样,爱岗敬业的 WireGuard 还是让用户的系统陷入了瘫痪。


现代系统需要高质量的伪随机数来完成众多任务,其中“随机”的含义当然不可能是“始终返回 0xFFFFFFFF”。还有另一种直观的候选方法,也就是地址空间布局随机化(ASLR)。Windows 与 Linux 都只采用 RDRAND 作为随机机制中的一部分,旨在确保永远不会以相同的顺序加载同一段代码,从而减轻相关软件栈遭到破坏的风险。

修复问题,至少是发现问题

正如 AMD 公司代表在今年 7 月接受采访时所言,真正的修复手段是对主板进行 BIOS 更新,同时确保 BIOS 当中包含针对 CPU 本体的微代码补丁。然而当 Jim 这样做时,却发现并没有那么简单。


Jim 使用 dmidecode 程序检查了自己的 BIOS,发现日期是 2019 年 8 月 12 日,所以当看到华硕主板下载页面上更新到 9 月的 BIOS 时,Jim 非常惊喜。为了尽快结束这糟糕的一天,Jim 选择了立刻下载 BIOS 更新,并将其保存到 U 盘当中,重新启动系统,然后进入设置程序,一气呵成。


不过遗憾的是,在成功更新并再次重新启动之后,Jim 突然意识到自己犯了个错误——没错,华硕虽然列出了 BIOS 的更新日期,但其提供的实际版本与 Jim 之前使用的一样,都是 3.2.0。所以 Jim 的 CPU 仍然坚持认为 0xFFFFFFFF 是随机度最高、质量最好的生成数。


遭遇这一系列事情的 Jim ,火气一下就上来了:systemd 虽然悄悄解决了这个 bug,但大多数应用程序只是直接忽略,我怎么知道问题到底有没有得到修复?如果两年之后,事实证明 ASLR 根本无法提供真正的随机数,那我因此遇到的破坏性攻击又由谁来负责?


不过,好在几番冥思苦想后,Jim 突然发现自己完全可以使用 Linux 上的 hexdump 工具对内核设备/dev/hwrng 进行检查,以证明确实存在这一问题。


但 WireGuard 项目的 Jason Donenfeld 却警告称,/dev/hwrng 在某些系统上可能从其他来源处获取随机数,换句话说,当看到一大堆 FF 时肯定能够证明它有问题,但当看到一大堆有效的伪随机数时也不能说明它没有问题。为此,Jason Donenfeld 还慷慨地分享了多种测试程序,能够帮助用户安全地直接访问 RDRAND。


如果大家使用的是 Linux,可以下载rdrand-test.zip,正常解压,然后在文件夹中直接运行。通过./amd-rdrandbug 命令,用户可以查看自己的系统是否存在这一特定 bug。./test-rdrand 能够输出 20 条 RDRAND 取值,如果大家在测试中发现自己总是得到相同的值集,那么无论其看起来是否随机,都表明你已经成为这项 bug 的受害者!


如果大家使用的是 Windows,那还得额外做点工作。首先下载 Ubuntu 桌面安装程序,然后创建一个 Ubuntu 启动 U 盘。接下来,你可以启动 Ubuntu 启动盘的实时环境(点击「Try Ubuntu」),然后下载并运行以下测试:


you@ubuntu-live:~$ wget https://cdn.arstechnica.net/wp-content/uploads/2019/10/rdrand-test.zipyou@ubuntu-live:~$ unzip rdrand-test.zip you@ubuntu-live:~$ cd rdrand-testyou@ubuntu-live:~$ ./amd-rdrand.bug
复制代码



只有在足够广泛的数据集当中,连续 20 个 0xFFFFFFFF 才可能被视为有效的“随机”分组。但在大多数情况下,用户使用的数据集都没那么广泛。

Jim 的总结

经历了这样一个糟糕的周末,Jim 最后总结了自己的收获:


随机数生成器 bug 是个相当严重的问题,但更加令人不安的是,在过去三个月的时间里,AMD 公司并没有就此问题进行积极的努力与强调。虽然总体而言,Ryzen 3000 确实是一款出色的 CPU 平台,新系统也给我留下了深刻的印象……但是,整整一个周末令人头痛的故障排查经历,让我对这套系统的整体安全性产生了严重的怀疑,我甚至不知道这个 bug 什么时候才能得到修复。


日前,我与 AMD 公司的代表取得了联系。对方回答了我关于硬件的问题,但没有给出具体解决方案。等有了最新消息,我会及时向大家汇报更新消息。

事件后续

事后,在 Jim 联系 AMD 就此事进行询问时,AMD 的一位代表询问了 Jim 的主板型号(Asrock Rack X470D4U),而后又联系了 Asrock。Asrock 团队提供了已经完成微代码修复的定制 BIOS 版本,但 Jim 认为这种只适用于个人的 BIOS 版本没有任何意义。


与此同时,有读者在 Jim 的文章评论区给出了一些别的解决方法及缓解措施,尽管好像并没有什么用。


一种是在引导时将 nordrand 以参数形式传递给 GRUB。这种方法并不能解决问题,因为该方法实际上就是告知内核不要使用 RDRAND 指令,这往往无法影响该指令自身的实际可用性。指令仍然存在于系统当中,而一切通过 CPUID 检查 RDRAND 可用性的代码也仍然会受到影响。类似的 random.trust_cpu Linux 引导选项也是如此。这些缓解性措施都没能真正禁用 RDRAND,因此不能算是问题的理想解决方案。


另一种是安装 amd64-microcode 软件包。Jim 尝试后表示,结果还是不行。因为在默认情况下,amd64-microcode 与 intel-microcode 软件包被直接安装在 Ubuntu 19.10,以及所使用的系统当中,但这并不能解决 RDRAND 的故障。为此,Jim 再次联系了 AMD,要求对方代表检查该软件包的状态并确定是否有必要对其做出更新。


以下是 Jim 的验证:



目前最新 Ubuntu 10.10 系统上的 amd-64 微代码补丁,其仍然无法解决 RDRAND 的问题。



在设置 nordrand 或者 random-trust_cpu=0 之后,rdrand 在/proc/cpuinfo 下仍显示为可用,因此这两种引导选项均无法真正解决这个问题。

One more thing

截止到本文发布,Jim 的文章并没有进一步更新,我们也无从得知他是否已经等到了 AMD 所承诺的那个“具有真正意义的通用 BIOS 版本”。


其实,对于某些“极客” 来说,处理器的微代码早已不是什么神秘的东西,它可以被看成是一种处理器固件,从主板的 BIOS 中进行加载。而主板制造商则可以通过在新的 BIOS 版本中集成新的处理器微代码,支持新的处理器或是对一些所谓的 bug 进行修复。


但是真实情况我们也看到了,BIOS 的更新并不容易,bug 的修复难度也不低。不信,你看看隔壁的英特尔,它也同样正在忙着修补自家的漏洞呢。


原文链接:


https://arstechnica.com/gadgets/2019/10/how-a-months-old-amd-microcode-bug-destroyed-my-weekend/#lg=1&slide=1


2019-11-01 08:1010413
用户头像
张之栋 前InfoQ编辑

发布了 91 篇内容, 共 50.0 次阅读, 收获喜欢 159 次。

关注

评论 1 条评论

发布
用户头像
我的就没事
admin@GpuServer2:/slow/temp/rdrand-test$ ./test-rdrand
RDRAND() = 0x99c426c7
RDRAND() = 0x31d84ba3
RDRAND() = 0x21a67fdc
RDRAND() = 0xeca19013
RDRAND() = 0x6fc097c4
RDRAND() = 0xa3580504
RDRAND() = 0x51e0ab12
RDRAND() = 0xb559ae86
RDRAND() = 0x19652034
RDRAND() = 0xcd2d43ef
RDRAND() = 0x0b8078f7
RDRAND() = 0x9b345ccc
RDRAND() = 0x9ebb72e0
RDRAND() = 0x18f94da4
RDRAND() = 0x7dfb7eec
RDRAND() = 0x97494e83
RDRAND() = 0xde66ce5a
RDRAND() = 0x27336c73
RDRAND() = 0x2d7b6398
RDRAND() = 0xa5ff639c
admin@GpuServer2:/slow/temp/rdrand-test$ sudo chmod 755 amd-rdrand-bug
admin@GpuServer2:/slow/temp/rdrand-test$ ./amd-rdrand-bug
Your RDRAND() does not have the AMD bug.
展开
2019-11-01 10:29
回复
没有更多了
发现更多内容

英特尔院士斯旺:由外而内重塑芯片设计

E科讯

从源码角度研究Java动态代理

叫我阿柒啊

动态代理 代理模式 rmi

webRTC的标准与发展

anyRTC开发者

音视频 WebRTC RTC

五一假期旅游完突然收到(余额宝)面试,四面成功拿下offer

Java架构师迁哥

探秘区块链技术在计算机取证过程中的机制与应用

CECBC

高可用DevHa实践,告诉你生产环境0性能故障是如何做到的!

TakinTalks稳定性社区

压测 性能调优 全链路压测 系统稳定高可用 性能压测

博睿数据2021战略发布巡展,开辟IT运维创新路径

博睿数据

博睿数据 数据链DNA 服务可达

一场“测谎”人机对战背后的故事:度小满的技术进击之路

脑极体

week5作业

Geek_2e7dd7

架构实战营

眼观六路耳听八方还不知疲倦?数仓智能运维服务体系是怎么做到的?

华为云开发者联盟

数据库 数据仓库 监控 智能运维 数据库监控

【玩转PDF】贼稳,产品要做一个三方合同签署,我方了!

牧小农

JVM

鸿蒙轻内核M核源码分析:数据结构之任务排序链表

华为云开发者联盟

鸿蒙 数据结构 任务排序链表 双向链表数组 鸿蒙轻内核

人生算法:做好自己这家公司的CEO

石云升

读书笔记 思维模型 5月日更

用图数据库可视化探索 Chia Network 区块链数据

古思为

区块链 可视化 图数据库

计算社会科学 - DAY 17

Qien Z.

5月日更

Django 之 Models(Models 模型 & 数据表关系)

若尘

django model Python编程 5月日更

低代码实现传统装饰企业的管理跃迁

华为云开发者联盟

低代码 华为云 计算 低代码开发 AppCube

5 月 28 日 - 29 日阿里云峰会视频云专场直播预告

阿里云CloudImagine

阿里云 音视频

MySQL事务处理特性的实现原理

华为云开发者联盟

MySQL 数据库 innodb 事务 隔离

appium 入门参考

37手游iOS技术运营团队

ios 测试 自动化测试 iOS Developer

智慧党建平台搭建,党建干部管理系统,智慧组工平台解决方案

代码精进之路学习笔记

escray

学习 极客时间 5月日更

并发王者课-青铜7:顺藤摸瓜-如何从synchronized中的锁认识Monitor

MetaThoughts

Java 多线程 并发

5分钟速读之Rust权威指南(十一)

wzx

rust

V8数据存储(上篇):栈和堆

梁龙先森

大前端 浏览器

【Flutter 专题】118 图解特殊利器 ShaderMask 着色器

阿策小和尚

5月日更 Flutter 小菜 0 基础学习 Flutter Android 小菜鸟

2021 全球技术领导力峰会 融云布道技术领导力进阶之路

融云 RongCloud

面向WEB开发人员的Docker(六):使用nginx部署静态网站

devpoint

Docker

为什么不推荐C++?

实力程序员

密码学系列之:SAFER

程序那些事

密码学 程序那些事 SAFER

现在已经卷到需要问三色标记了吗?

艾小仙

血泪控诉:曝光数月的AMD微代码bug毁掉了我的周末_AICon_Jim Salter_InfoQ精选文章