写点什么

血泪控诉:曝光数月的 AMD 微代码 bug 毁掉了我的周末

  • 2019-11-01
  • 本文字数:5049 字

    阅读完需:约 17 分钟

血泪控诉:曝光数月的AMD微代码bug毁掉了我的周末

AMD 公司发布的 Ryzen 3000 处理器中,存在一项与随机数生成器相关的严重微代码 bug。也正是因为这个早已曝光数月却没有得到有效解决的“错误”,本篇文章的主人公 Jim Salter 度过了一个非常糟糕的周末。你能想象,一整天都在跟踪错误的问题,寻找 bug 原因的场景吗?



Ryzen 3000 的 RDRAND 函数(本应成为一款高质量的伪随机数生成器)每次都会返回 0xFFFFFFFF,修复过程也是相当煎熬。


上周末,Jim 怀着激动的心情坐在家中的工作间里,在他打算部署自己的第一台 Ryzen 3000 工作站时,却遗憾的发现,AMD 的一项微代码 bug(最初公布于今年 7 月,但直到现在仍广泛存在于各类系统当中)打破了这美好的幻想。


虽然 Jim 经过努力,让这套 Ryzen 3700X 系统恢复了正常,而且速度也相当惊人,但他不得不承认的是:AMD 的微代码 bug 仍然存在,而且现在缺少简单易行的修复方法。


事实上,在 Ryzen 3700X 发布后不久,AMD Ryzen 3000 的使用者就已经发现了这款崭新的 CPU 存在问题:Windows 用户无法顺利启动 Dstiny 2(原因是存在电源管理 bug,不过困扰 Jim 的倒不是这个问题),Linux 用户甚至发现自己经常无法正常启动系统。


福布斯杂志作者 Jason Evangelho 在今年 7 月的文章中报告了初步现象与总结意见,AMD 公司的代表则通过电子邮件发出了回复声明:


AMD 公司已经确认了引发问题的根本原因,并对 BIOS 程序进行了修复,旨在解决 Ryzen 3000 处理器无法运行某些 Linux 发行版以及 Destiny 2 的功能问题。我们已经将更新后的 BIOS 发放给各主板合作伙伴,希望消费者能够在未来几天之内使用到新的 BIOS。


AMD 的回应乍听起来似乎不错,AMD 自己的态度也很乐观,但现实情况却并非如此。因为一旦 CPU 的微代码中存在 bug,就只能由主板供应商发布新的系统 BIOS 才能实现修复。换句话说,用户并不能简单通过 AMD 提供的下载链接自行安装修复。


而且 AMD 方面虽然在今年 7 月就做出了回复,但截至到目前为止,AMD 方面也仅仅只是发送了通知邮件而已。它并没有在其他渠道做出任何的相关提醒,不仅没有新闻稿,而且这封邮件看起来诚意略显不足,仿佛在说这只是一个能够在一两周之内轻松解决的小问题。


现在,已经过去三个月的今天,踩了坑的 Jim 表示:AMD 的微代码 bug 问题非常严重。

从 RDRAND 开始

存在 bug 的代码会对 RDRAND 指令做出错误的响应,而这个 bug 之所以非常严重,则需要从 RDRAND 说起。


事实上,从英特尔的 Broadwell 以及 AMD Zen 架构开始,现代 x86_64 CPU 必须内置高质量的板载随机数生成器(RNG),负责利用热“噪声”快速向具有内核级访问权限的用户提供高熵伪随机数。而 RDRAND,正是触发随机数生成的指令。


AMD 的整个设计体系本应该非常安全,然而真实的情况却存在一些偏差。


首先是一条 CPUID 函数调用,用于检查 RDRAND 的可用性;此外,RDRAND 调用的返回值中还包含一条“进位”,该位会在 CPU RNG 无法生成足够的随机数时通知作为调用方的应用程序。遗憾的是,在安装修复补丁之前,Ryzen 3000 会对 CPUID 01H 调用回应“yes”,并将进位设置为“1”,表明其已经成功创建了有机高质量随机数……同时每一次的“随机”数都被赋值为了 0xFFFFFFFF。



只有在足够广泛的数据集当中,连续 20 个 0xFFFFFFFF 才可能被视为有效的“随机”分组。但在大多数情况下,我们使用的数据集都没那么广泛。



大家不要尝试使用/dev/hwrng 来检查自己的设备是否受到 AMD 微代码 bug 的影响,这是因为/dev/hwrng 可能会从其他来源获取数据。在 Jim 的案例中,它倒确实是从 RDRAND 处获取数据,这让 Jim 很快就发现了问题。

RDRAND bug 的主要影响

今年 6 月,Ryzen 3000 中的 RDRAND bug 首次被发现时,Linux 用户开始大量发布报告,表示自己基于 Ryzen 3000 的操作系统无法正常启动。而引导失败正是由 systemd 使用 RDRAND 引发的;不过遗憾的是,这已经不是 systemd 第一次与 AMD CPU 上存在问题的随机数生成器发生冲突了。


早期一批 CPU 中存在的一项 bug,会导致某些 AMD 系统在从挂起状态恢复至正常工作状态后停止生成正确的“随机”数。而此次发生的新 bug,则会导致 Ryzen 3000 用户全程得不到任何合适的随机数。这两个问题,都导致了 systemd 在 Linux 操作系统中被长期锁定。因此今年 5 月,systemd 提交了一项修复程序,如果 systemd 从 RNG 得到的返回值为 0xFFFFFFFF,则该修复程序会转而使用备用 RNG 源。(但这种修复方式本身也有问题,因为从技术上讲 0xFFFFFFFF 是个完全有效的随机数——因此,只要经过足够长的时间,systemd 终究会在收到这个哪怕本应正确的随机数时,将其误判为错误状况,而后再直接切换至 RNG。)


Systemd 的补丁虽然做的很一般,但确实能够让操作系统顺利启动。只是它并不能真正从根本上解决问题,毕竟这种治标不治本的方式压根没有触及到随机数生成器那个层面。


Jim 在自己的系统上,用了一整个周末的时间,跟踪一个个错误问题。这个过程让 Jim 非常抓狂。


Jim 首先怀疑问题来自系统上安装的全新 RX 590 显卡,然后就一次次更新操作系统发行版以及内核版本。但这些更新根本没用。



崭新的系统不断报出一个个讨厌的 BUG:软锁定——22 项错误彻底卡住了 PU#n,并迅速令系统整体陷入瘫痪。/var/log/syslog 中的调用信息也没什么指导意义,不过至少让 Jim 找到了第一条线索。


最终,在经历了一系列尝试、气急败坏的咒骂、无数杯咖啡和几口小酒之后,Jim 终于把 CPU 的频繁锁定与调用跟踪记录联系了起来。因为 Jim 发现,在每一次跟踪中,都会出现“WireGuard”的身影。


Jim 称:事实证明,WireGuard 依靠 RDRAND(如果可用)生成新的会话 ID。会话 ID 必须唯一,WireGuard 还要求其不是简单的连续整数,因此它会从 RDRAND 中获取伪随机值,将其与现有会话 ID 清单进行比较以确保不存在冲突,而后将该 ID 分配给新会话。


请注意这里的最后一句“确保不存在冲突“,它的意义在于,如果现有会话同新会话拥有相同的 ID,则 WireGuard 会向 RDRAND 请求另一个“随机”数,并再次检查其唯一性,依此类推。由于系统上的 RDRAND(以及任何未经更新的 Ryzen 3000 系统)始终返回 0xFFFFFFFF,因此这个过程就会无限循环。内核代码发生无限循环当然不是什么好事,紧随其后的必然是系统崩溃与硬件重启。


但,问题并不是出在 WireGuard 身上!WireGuard 正确地检查了 RDRAND 是否可用、是否给出一个值,以及该值是否正确设置了进位。它的责任,就是确保不仅获得了一个值,而且确定该值确实是适当的随机值。然而即使这样,爱岗敬业的 WireGuard 还是让用户的系统陷入了瘫痪。


现代系统需要高质量的伪随机数来完成众多任务,其中“随机”的含义当然不可能是“始终返回 0xFFFFFFFF”。还有另一种直观的候选方法,也就是地址空间布局随机化(ASLR)。Windows 与 Linux 都只采用 RDRAND 作为随机机制中的一部分,旨在确保永远不会以相同的顺序加载同一段代码,从而减轻相关软件栈遭到破坏的风险。

修复问题,至少是发现问题

正如 AMD 公司代表在今年 7 月接受采访时所言,真正的修复手段是对主板进行 BIOS 更新,同时确保 BIOS 当中包含针对 CPU 本体的微代码补丁。然而当 Jim 这样做时,却发现并没有那么简单。


Jim 使用 dmidecode 程序检查了自己的 BIOS,发现日期是 2019 年 8 月 12 日,所以当看到华硕主板下载页面上更新到 9 月的 BIOS 时,Jim 非常惊喜。为了尽快结束这糟糕的一天,Jim 选择了立刻下载 BIOS 更新,并将其保存到 U 盘当中,重新启动系统,然后进入设置程序,一气呵成。


不过遗憾的是,在成功更新并再次重新启动之后,Jim 突然意识到自己犯了个错误——没错,华硕虽然列出了 BIOS 的更新日期,但其提供的实际版本与 Jim 之前使用的一样,都是 3.2.0。所以 Jim 的 CPU 仍然坚持认为 0xFFFFFFFF 是随机度最高、质量最好的生成数。


遭遇这一系列事情的 Jim ,火气一下就上来了:systemd 虽然悄悄解决了这个 bug,但大多数应用程序只是直接忽略,我怎么知道问题到底有没有得到修复?如果两年之后,事实证明 ASLR 根本无法提供真正的随机数,那我因此遇到的破坏性攻击又由谁来负责?


不过,好在几番冥思苦想后,Jim 突然发现自己完全可以使用 Linux 上的 hexdump 工具对内核设备/dev/hwrng 进行检查,以证明确实存在这一问题。


但 WireGuard 项目的 Jason Donenfeld 却警告称,/dev/hwrng 在某些系统上可能从其他来源处获取随机数,换句话说,当看到一大堆 FF 时肯定能够证明它有问题,但当看到一大堆有效的伪随机数时也不能说明它没有问题。为此,Jason Donenfeld 还慷慨地分享了多种测试程序,能够帮助用户安全地直接访问 RDRAND。


如果大家使用的是 Linux,可以下载rdrand-test.zip,正常解压,然后在文件夹中直接运行。通过./amd-rdrandbug 命令,用户可以查看自己的系统是否存在这一特定 bug。./test-rdrand 能够输出 20 条 RDRAND 取值,如果大家在测试中发现自己总是得到相同的值集,那么无论其看起来是否随机,都表明你已经成为这项 bug 的受害者!


如果大家使用的是 Windows,那还得额外做点工作。首先下载 Ubuntu 桌面安装程序,然后创建一个 Ubuntu 启动 U 盘。接下来,你可以启动 Ubuntu 启动盘的实时环境(点击「Try Ubuntu」),然后下载并运行以下测试:


you@ubuntu-live:~$ wget https://cdn.arstechnica.net/wp-content/uploads/2019/10/rdrand-test.zipyou@ubuntu-live:~$ unzip rdrand-test.zip you@ubuntu-live:~$ cd rdrand-testyou@ubuntu-live:~$ ./amd-rdrand.bug
复制代码



只有在足够广泛的数据集当中,连续 20 个 0xFFFFFFFF 才可能被视为有效的“随机”分组。但在大多数情况下,用户使用的数据集都没那么广泛。

Jim 的总结

经历了这样一个糟糕的周末,Jim 最后总结了自己的收获:


随机数生成器 bug 是个相当严重的问题,但更加令人不安的是,在过去三个月的时间里,AMD 公司并没有就此问题进行积极的努力与强调。虽然总体而言,Ryzen 3000 确实是一款出色的 CPU 平台,新系统也给我留下了深刻的印象……但是,整整一个周末令人头痛的故障排查经历,让我对这套系统的整体安全性产生了严重的怀疑,我甚至不知道这个 bug 什么时候才能得到修复。


日前,我与 AMD 公司的代表取得了联系。对方回答了我关于硬件的问题,但没有给出具体解决方案。等有了最新消息,我会及时向大家汇报更新消息。

事件后续

事后,在 Jim 联系 AMD 就此事进行询问时,AMD 的一位代表询问了 Jim 的主板型号(Asrock Rack X470D4U),而后又联系了 Asrock。Asrock 团队提供了已经完成微代码修复的定制 BIOS 版本,但 Jim 认为这种只适用于个人的 BIOS 版本没有任何意义。


与此同时,有读者在 Jim 的文章评论区给出了一些别的解决方法及缓解措施,尽管好像并没有什么用。


一种是在引导时将 nordrand 以参数形式传递给 GRUB。这种方法并不能解决问题,因为该方法实际上就是告知内核不要使用 RDRAND 指令,这往往无法影响该指令自身的实际可用性。指令仍然存在于系统当中,而一切通过 CPUID 检查 RDRAND 可用性的代码也仍然会受到影响。类似的 random.trust_cpu Linux 引导选项也是如此。这些缓解性措施都没能真正禁用 RDRAND,因此不能算是问题的理想解决方案。


另一种是安装 amd64-microcode 软件包。Jim 尝试后表示,结果还是不行。因为在默认情况下,amd64-microcode 与 intel-microcode 软件包被直接安装在 Ubuntu 19.10,以及所使用的系统当中,但这并不能解决 RDRAND 的故障。为此,Jim 再次联系了 AMD,要求对方代表检查该软件包的状态并确定是否有必要对其做出更新。


以下是 Jim 的验证:



目前最新 Ubuntu 10.10 系统上的 amd-64 微代码补丁,其仍然无法解决 RDRAND 的问题。



在设置 nordrand 或者 random-trust_cpu=0 之后,rdrand 在/proc/cpuinfo 下仍显示为可用,因此这两种引导选项均无法真正解决这个问题。

One more thing

截止到本文发布,Jim 的文章并没有进一步更新,我们也无从得知他是否已经等到了 AMD 所承诺的那个“具有真正意义的通用 BIOS 版本”。


其实,对于某些“极客” 来说,处理器的微代码早已不是什么神秘的东西,它可以被看成是一种处理器固件,从主板的 BIOS 中进行加载。而主板制造商则可以通过在新的 BIOS 版本中集成新的处理器微代码,支持新的处理器或是对一些所谓的 bug 进行修复。


但是真实情况我们也看到了,BIOS 的更新并不容易,bug 的修复难度也不低。不信,你看看隔壁的英特尔,它也同样正在忙着修补自家的漏洞呢。


原文链接:


https://arstechnica.com/gadgets/2019/10/how-a-months-old-amd-microcode-bug-destroyed-my-weekend/#lg=1&slide=1


2019-11-01 08:1010326
用户头像
张之栋 前InfoQ编辑

发布了 91 篇内容, 共 49.1 次阅读, 收获喜欢 159 次。

关注

评论 1 条评论

发布
用户头像
我的就没事
admin@GpuServer2:/slow/temp/rdrand-test$ ./test-rdrand
RDRAND() = 0x99c426c7
RDRAND() = 0x31d84ba3
RDRAND() = 0x21a67fdc
RDRAND() = 0xeca19013
RDRAND() = 0x6fc097c4
RDRAND() = 0xa3580504
RDRAND() = 0x51e0ab12
RDRAND() = 0xb559ae86
RDRAND() = 0x19652034
RDRAND() = 0xcd2d43ef
RDRAND() = 0x0b8078f7
RDRAND() = 0x9b345ccc
RDRAND() = 0x9ebb72e0
RDRAND() = 0x18f94da4
RDRAND() = 0x7dfb7eec
RDRAND() = 0x97494e83
RDRAND() = 0xde66ce5a
RDRAND() = 0x27336c73
RDRAND() = 0x2d7b6398
RDRAND() = 0xa5ff639c
admin@GpuServer2:/slow/temp/rdrand-test$ sudo chmod 755 amd-rdrand-bug
admin@GpuServer2:/slow/temp/rdrand-test$ ./amd-rdrand-bug
Your RDRAND() does not have the AMD bug.
展开
2019-11-01 10:29
回复
没有更多了
发现更多内容

学习笔记20210903(python测试类,贝叶斯定理)

姬翔

9月日更

服务器运维是什么意思?日常工作包含哪些?

行云管家

运维 服务器 IT运维 服务器运维

filecoin今日价格行情?fil币能涨到1万一枚吗?

区块链 分布式存储 fil币价格预测? filecoin挖矿 filecoin价格行情

Android ABI

Changing Lin

9月日更

聊聊什么样的代码是可读性强的代码?

卢卡多多

代码质量 代码 9月日更

中移“校企行”专项行动即将开赛,你准备好了吗?

创业邦

开源应用中心|这款漂亮的国产开源论坛系统,放着不用太可惜!

开源软件

波场链DAPP智能合约系统搭建|波场链DAPP开发

Geek_23f0c3

DAPP智能合约交易系统开发 波场DAPP 波场链DAPP开发

如何使用 Redis 实现后台房间的数据管理?

ZEGO即构

redis 架构 音视频

fil矿机组装教程是什么?fil矿机算力单位有哪些?fil矿机冗余是什么?

fil矿机组装教程是什么 fil矿机算力单位有哪些 fil矿机冗余是什么

IDC:2021年全球大数据和分析支出预计达2157亿美元

WorkPlus

阅读

如何采购ARM六核RK3399安卓工控开发主板?

双赞工控

安卓主板 工控主板 rk3399主板

一周信创舆情观察(8.23~8.29)

统小信uos

投资filecoin的最佳选择是?Filecoin挖矿的是如何月入上万的?

区块链 分布式存储 IPFS filecoin挖矿 投资filecoin

华为云IoT如何连接边缘和云,实现海量IoT数据就地处理的技术实践

华为云开发者联盟

IoT 边缘 IoT边缘 实时数据 IoT Edge

企业级即时通信市场能否告别“孤岛时代”?

WorkPlus

移动数字化底座 企业即时通讯平台 移动数字化平台 即时通讯IM 移动办公

全球教育行业机构遭受的攻击增长了 29%

WorkPlus

阅读

国资云横空出世,云上安全监管再加码

行云管家

云计算 数据安全 企业上云 国资云

再启动!零代码第四期训练营报名开放中

明道云

Erda 系列 Meetup「成都站」携手SOFAStack 和你聊聊云原生基础设施建设那点事儿

尔达Erda

开发者 云原生 活动 技术人

高可用 | Xenon 实现 MySQL 高可用架构 常用操作篇

RadonDB

MySQL 数据库 RadonDB

电信运营商基于 MQTT 协议构建千万级 IoT 设备管理平台

EMQ映云科技

物联网 IoT mqtt 通信运营商 emq

拥抱开源,云智慧发布AIOps社区

WorkPlus

阅读

云小课|细数那些VMware虚拟机的恢复招式

华为云开发者联盟

vmware 云小课 云备份 VMware恢复 恢复数据

敏捷团队的最佳测试实践:自动化金字塔

禅道项目管理

测试 自动化测试

值钱的数据放在云上安全吗?怎样才能保障其安全性?

行云管家

网络安全 信息安全 数据安全 企业上云

BaikalDB在大规模数据场景的挑战和实践

百度开发者中心

最佳实践 方法论 存储系统

爱奇艺本地实时Cache方案

爱奇艺技术产品团队

分布式 高并发 cache

第一波场DAPP系统搭建,DAPP介绍

合肥艾数199四②43⑧797

携手伙伴,共赴星海-百度飞桨应急行业AI私享会成功举办

百度大脑

人工智能 飞桨

Dogfooding-爱奇艺移动端后台灰度环境优化实践

爱奇艺技术产品团队

测试 开发 灰度发布

血泪控诉:曝光数月的AMD微代码bug毁掉了我的周末_AICon_Jim Salter_InfoQ精选文章