TDD真的可以确保质量？_研发效能_Ben Hughes

加拿大国家研究委员会发表过一篇题为“测试先行方法对于编程的效果”的论文，其中有一些值得关注的评注。这项研究由 24 位 IT 专业的毕业生参加，它丰富了正在升温的关于测试先行领域的研究。尽管出于快速了解领域知识的目的，TDD 作为一种卓越的学习工具已被认可，但至于它是否真与软件质量直接相关，这个问题仍然没有得到证明。这次研究不具有最终的权威性，不过它仍然揭示出一些有趣的结论——尤其是在对实验结果进行分析时，存在有不同的声音。

下面的内容摘自于研究报告的摘要：

测试驱动开发（TDD）的基础是：首先用一个测试将一项功能规范地表示出来，然后实现这项功能，让测试通过，最后不断地重复这个过程。本论文描述了一次对照实验，它评估了 TDD 这个重要方面：即在 TDD 中，程序员首先会编写功能测试，然后才编写相应的实现代码。

多位大学毕业生参与了这次实验。其中实验组开发时运用了测试先行的策略，而对照组运用的是更为传统的开发技术——实现功能在先，编写测试在后。两组人员都遵循增量的过程，一次增加一项新功能，然后执行回归测试。

研究者对此的评注道：“实验的结果证实了测试先行技术的一个抉择理论——测试先行通常选择以生产力为中心，而不是质量。”

我们的主要结论是，坚持测试先行的程序员会为每个程序单元编写更多的测试。更进一步的，随着程序员测试的增加，生产力通常会按照比例达到更高的级别。因此，通过一系列的级联反应，测试先行似乎能够提高生产力。

……我们同时还注意到，随着程序员测试数量的递增，软件的最低质量在线性地增加。而它与采用的开发策略无关。

但是也有不同的声音。Jacob Proffitt 是一位博客作者，自称是一位“充满热情的程序员，偶尔当一下管理人员，总的来说是个多才多艺的技术人员”。他研究了这篇论文后，在 blog 上发表了对论文的质疑。他认为，这篇论文在下结论时存在着强烈的确认偏袒 [译注 *]（confirmation bias）——比如，文中的结论忽视了很多实验中的调查事实。他相信，“TDD 与质量的关系仍然有很多值得怀疑的地方”，比如：

对照组（非 TDD，“后测试”）在每个方面上都获得了更高的质量——他们的质量有更高的上限、下限、平均值和中值。

对照组坚持更少的测试，却获得了更好的质量。

质量在 TDD 组才更显著地与测试的数量相关联（这是一个有趣的不同点，我不确定作者是否意识到了这一点）。

对照组的生产力可以作为测试量的函数，因此是高度可预见的，而且它比 TDD 组拥有更强的测试相关性。

Jacob 指出，这些学生的数据告诉我们的唯一事实是：

坚持测试先行的学生平均会写更多的测试。

学生写的测试越多，生产率越高。

软件的最低质量随着测试数量的提高而线性地提升。

IEEE 软件杂志的编辑 Hakan Erdogmus 是原始论文的合著者。他从不同的视角审视了这些观点：

单独一个学生，尤其是像我们的那些没有经验的学生，无论怎样安排实验，都不能证明或者证伪任何事情。实验的观察结果最多只能轻轻揭开大谜团的一角。在很多情况下，它们引发的疑问远远多于它们所能回答的，希望随着我们在研究中提出越来越多的相关问题，能加深我们对于这些现象的理解……事实上，经验主义的软件工程术语里头并没有“证实”这种说法。我们研究一种技术，充其量只能丰富我们的“证据”，并且提出一个待驳倒的理论来。尽管通过少数的实践以及一些值得注意的观察结果，我们可以宣称证据已经很充分了。但是，“陪审团”还在屋中讨论着，一直没有定论。

随后，Hakan 向 InfoQ 展示了关于 TDD 更为深入的探讨，这些讨论是基于目前已经完成的大量研究之上的：

从 2001 年到 2008 初所公布的 23 个 TDD 研究案例表现出一些相互冲突的结果，但是总的趋势却在走向一个一致的结论。研究结果的不同产生于上下文因素的多样性，它们都会影响到接受测量的结论和变量。在质量面前，即使存在些许争议，但结果是非常有说服力的。其中的 22 项研究，评估了一些内部或者外部的质量在 TDD 的影响下，会产生什么不同。其中 13 项报告表明 TDD 带来了不同程度的提高，4 项表明 TDD 不是决定性的因素，4 项表明没有非常明显的不同（包括我们自己的研究）。只有一项报告表明 TDD 导致了质量的下降。

译注 * 人在争论或作出判断时，总是习惯倾向于接受有利于自己观点的证据，而忽略不利于自己观点的证据。这种现象被称为“确认偏袒（confirmation bias）”。

查看英文原文： Does TDD Really Ensure Quality?

发布

暂无评论

创作场景

TDD 真的可以确保质量？

评论

融云 IM 和 RTC 服务,「助攻」智能物流等客户打通链路、完善生态

聊聊如何让办公网络直连Kubernetes集群PodIP/ClusterIP/Service DNS等

从React源码分析看useEffect

性能测试知识科普(五)：能力分层

API关键技术——身份认证

【web 开发基础】PHP 自定义常规函数的声明及应用 (30)

聊聊mybatis的反射之对象工厂

CleanMyMac X2023苹果电脑系统清理维护软件

从 Redux 的困扰到如何技术选型

ERP系统能给企业带来的那些好处

支持向量机-线性SVM用于分类的原理

java并发编程挑战与原理剖析

浅谈Go语言反射

2022-11-22：小美将要期中考试，有n道题，对于第i道题，小美有pi的几率做对，获得ai的分值，还有(1-pi)的概率做错，得0分。小美总分是每道题获得的分数。小美不甘于此，决定突击复习，

知乎好物推荐文能不能赚钱：如何撰写好物推荐文

从React源码角度看useCallback，useMemo，useContext

聊聊mybatis的反射之Invoker模块

Alien Skin Exposure2023独立编辑器和PS/LR插件

react源码分析：babel如何解析jsx

极客时间运维进阶训练营第四周作业

你可见过如此细致的延时任务详解

react源码分析：实现react时间分片

ERP 实施，甲方公司前期应该准备什么？

一文搞懂Go1.18泛型新特性

Java反射(完)类加载和反射获取信息

聊聊Mybatis的反射之ObjectWrapper

从React源码来学hooks是不是更香呢

react源码中的生命周期和事件系统

融云推送服务：独享推送通道，更高并发能力，应用运营必备

什么是容器编排及编排的优点

C++学习---类型萃取---std::integral_constant

创作场景

TDD 真的可以确保质量？

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载