Scrum 为项目执行提供了可靠的、已被证实的基础。但是,在每个项目中,Scrum 都必须根据具体需求和环境进行调整,这是项目成败的决定性因素。在这篇文章中,我们将会介绍我们如何成功地完成了一个大型的(20 人年,超过十万行代码)、分布式(开发人员位于印度和荷兰)Scrum 项目,而这个项目曾经在传统开发方式下被废弃过 。为了帮助读者顺利运作大规模项目,在这里我也会历数我们的经验教训,包括:项目启动、找到合适的产品负责人、估算的重要性、有效沟通、测试、文档。
背景
荷兰铁路可以跻身于世界上使用量最大的铁路系统之列,每天要运送 120 万乘客。该部门打造了一套全新的信息系统,为乘客提供更准确的列车信息,减少人为干预。作为该系统的一部分,我们做了这个 PUB 发布系统,对所有车站中的信息显示和音频广播做集中控制。
有人之前试过完成这个 PUB 系统,但是他们当时用的是传统的瀑布方法。客户把详细的需求文档规范交给了开发商,然后放任自流,等着完整的系统成形交付。三年之后,这个项目被取消掉了,因为开发商没能开发出一个可以工作的系统来。然后客户雇佣了我们公司从头做起,我们引入了敏捷开发方式,用上了 Scrum,跟客户紧密协作,开放交流,小步前进。
起步
项目开始的时候,我们在第一个 sprint 开始前安排了一个启动阶段,耗时三周,准备好了 sprint 中所需的一切。这个启动阶段由一个项目经理,一个架构师和一个 Scrum Master 参与完成。
选择产品负责人是个很有难度的事情,我们找不到一个人能够有时间、具备领域知识、而且有权利设置需求优先级。我们提名了两个业务分析师来一起承担产品负责人的职责。他们能抽出时间来,而且他们从前也参与过构建 PUB 的工作,所以业务知识很丰富,足以担当起产品负责人的角色,为多组客户充当优秀的代理。有关优先级的和范围的高级决策,是由客户委任的项目经理负责,但是他时间不够用,对于需求的理解也有所欠缺。一般情况下大家的配合还可以,但偶尔项目经理也会对(他所缺席的)计划会议上制定的优先级进行调整,于是这个会议就得重新来过。在理想状态中,对优先级有最终决策权的人应当每次都参加 sprint 计划会议。
因为先前有人试着构建过 PUB 系统,所以有些部分的详细需求文档已经是现成的了。它们遵守了 MIL 标准 [1],不过其形式不适于敏捷计划和估算 [2],因为在敏捷开发中,需求应当被组织成小块的段落,每一块都可以在一个 sprint 中进行实现、测试和演示,但是现有的文档与此要求不符。产品负责人也没有多少编写用户故事的经验,为了解决这个问题,Scrum Master 帮他们弄出了最原始的产品 backlog,里面放着一些细粒度的、经过估算的用户故事,供前几个迭代使用。
我们所构建的软件只是某个大型软件系统的一部分,它还包括很多相关的软件系统,那些系统负责显示信息,还要在车站内安装相关显示设备。我们得保证每件事情都可以按时完成,才能把复杂的系统理顺。所以需要有一个整体的计划方案。经历了几次迭代,我们对系统的各个功能都按照自己的最大能力做出估算,这个问题也解决掉了,而且也有了一个比较靠谱的生产率。于是就可以用发布版本燃尽图来记录和沟通进度了。这里我们学到的东西就是,即使是信息量很少的情况下,有估算也比没估算好。
扩展到分布式团队
项目启动以后,一开始只有 7 个人,两星期一迭代。项目从一开始就计划着要用到印度的一些人力,所以从第一个 sprint 开始就有两个印度开发人员进入了团队。他们来到客户现场参与开发,用了六周时间熟悉领域知识、用户代表和团队其他成员。
建立团队伊始,就要决定如何协作。我们跟所有团队成员一起——也包括印度同事——组织了一个“规范和章程 [3] ”活动。我们定下来一些实践方式,如怎样做结对、用哪些工具、质量目标、每天的核心工作时间等等。然后在 Wiki 上记录下来。整个团队有了共识,事情就好办多了。一旦这些共识需要修改,比如在回顾会议上提出改进,这些实践就要在 wiki 上更新,这样有新人加入的时候,他们看到的总是最新内容。
在前几个迭代里面,团队成功地构建、测试、验证了组成系统核心的用户故事。这让客户很满意,尤其是跟过去相比,我们的进度更快,而且客户对项目的方向也有掌控权。
几个迭代以后,我们就扩展了项目:印度的开发人员返回本国,然后我们在印度和荷兰都增加了资源,这样变成了两个 Scrum 团队,每个团队 5 个开发人员,共享同一个测试人员。过后又变成了三个团队,一共三个测试人员。每个团队都既有印度员工,又有荷兰员工。这种方式让项目保持了很高的生产率和工作质量 [4]。
那我们是怎样异地协同工作的呢?首先,我们频繁使用 Skype。我们都有网络摄像头、耳机、麦克风,还有个大屏幕。所以我们既能一对一开会,也能全体参会。这些都用的是现成的东西和免费软件。没多花多少钱,只是用 UPS 保证断电的时候也能继续开 Skype 会议,这样提高了印度那边的网络联系能力。其次,只有在同一个地方的人才做结对。也就是说印度的人跟印度的人结对,荷兰的人跟荷兰的人结对。经验告诉我们,不管现在有了哪些工具,结对编程所需的交互协作还是需要两个人坐在一起的。
最后,我们用 ScrumWorks 记录谁在做什么事情,记录 Sprint 的进度。因为我们是分布式团队,所以这个比白板要好得多。在跟产品负责人讨论产品 backlog 的时候,ScrumWorks 也起了很大作用。
在实施这种分布式模型的时候,我们也战胜了很多困难。例如,产品负责人不习惯说英语。按照 Scrum 的说法,计划会议分成两部分,在第一部分中,产品负责人给团队讲述用户故事,并且设置优先级。因为这种语言障碍的存在,这一部分的会就只让荷兰团队参加了。第二部分通常是大家讨论具体任务,做估算。这部分是跟印度团队一起用 Skype 来完成的,说的是英语,产品负责人不参加。我们还多花一些时间来沟通第一部分会议的内容。Sprint 演示也只在荷兰进行。完成以后,荷兰团队再写封内部简报,告知印度团队——也包括公司其他人——演示的结果。事实证明,这个内部简报深受欢迎。
拆出一个只关注架构的团队
我们的项目只是整个应用链条中的一部分,必须要跟客户现有的 IT 基础架构无缝挂接。虽然我们的产品负责人对核心功能需求非常熟悉,但是在安全、日志、可用性、性能等方面就所知甚少了。要从客户的组织中了解这些需求难度很大,因为这得跟不同部门中的许多人沟通讨论。这种调查工作给 Scrum 的迭代节奏拖了后腿。为了解决这个问题,我们创建了一个独立团队,他们只关注架构方面的内容。他们的工作就是弄清楚非功能性需求,好让我们把它们转换成 backlog 中的用户故事。我们用“Scrum of Scrum”会议来跟特征团队沟通。我们都喜欢这种方式,因为特征团队可以全速前进。而且有些员工也喜欢在“架构团队”中工作。
文档
客户要求大量的文档,而且还要符合 MIL 文档规范。还要用荷兰语写。很明显,这项工作只能由荷兰人来干。而且开发跟测试都不熟悉 MIL 规范,写用户手册这样的文档也不是他们所擅长的。所以我们决定雇一个曾经写过 MIL 文档的技术文案。开发跟测试可以继续关注于各自职责。这个做法也很成功,不过我们发现这也要求技术文案和其他团队成员之间也要有大量的沟通交流,这是需要引起注意的,因为开发人员只想“做他们该做的事情”。
需求
我们的产品负责人是一些业务分析师,他们习惯于用荷兰语写出大量的需求文档。而在我们的过程中,只要 backlog 中有用户故事,产品负责人也能在计划会议上做解释,这就足够了。但是客户又要求有很多文档。所以我们打算和产品负责人一起把需求翻译成用户故事。结果就是需求被放在了两个地方:需求文档和 backlog。当需求发生变化的时候就会导致问题。我们做了大量的辅导工作,确保产品负责人不仅仅是关注需求文档,也要负责 backlog。
有了一行文字表达的用户故事,再加上产品负责人的解释,我们的 Scrum 团队就可以构建和测试软件了。不过需求文档对外部的测试团队做测试还是很有价值的,虽然在好些迭代里面,我们很难把实现的用户故事跟需求文档中的某些部分“映射”起来。
回顾从前,我们其实一直都没有一个理想的需求管理过程。我们只是尽了最大努力,来应对这相互冲突的需求:我们需要用户故事,客户需要详细的需求文档。
测试
我们在项目中做了自动化测试,保证在每个 Sprint 结尾的时候都可以交付经过测试的软件,不带有回归的 bug。即使随着系统扩展,我们还是做到了在 8 人的 Scrum 团队中只安排一个测试人员,而且保证了高质量:外部测试团队最多也就是能在每千行代码中发现一个缺陷。
我们的自动化测试包括两部分:单元测试和验收测试。在前者中,我们用的是 JUnit,用 Clover 度量测试覆盖率,我们的目标是服务器端代码的测试覆盖率达到 80%。验收测试用 FitNesse 作自动化。每个完成的用户故事,都会在 FitNesse 上有一套验收测试。有了庞大的测试套件,就能在 Sprint 中找到并修复回归的 bug。这种做法还有另外一个好处,就是测试人员从一开始就可以积极参与,在用户故事实现之前编写测试用例。
有一个地方让我们苦恼了很久。这个系统有一部分是一个用户界面很复杂的富客户端。对这东西做自动化测试要比对服务端做测试难得多。所以在 UI 方面的功能我们大部分还是依靠手工操作。随着系统的增长,回顾测试所花的时间就越来越长,更糟的是,外部团队只在这部分系统中会发现回归 bug。如果有了自动化测试就能防止这一点。我们由此学到了一点,即便是自动化测试很困难,为它付出些努力,迟早会获得回报,尤其是在项目晚期。
产出成果
客户对我们的工作很满意。说点马后炮的话,跟大多数项目一样,功能、时间、预算都会随着项目进度发生变化,所以“按时按预算”完成只是个很模糊的完成标准而已。更为重要的是,我们在项目进程中常常跟客户讨论怎样把项目做好,他们都很满意。不幸的是,因为其他系统中的问题,产品在全国范围内部署的时候出了麻烦。
客户找了外部的审核公司来审核这个软件。他们的结论是:
- 系统的可维护性非常好。
- 源码质量非常高。
在审核公司的报告中,他们说他们从来没有给过一个项目这么多正面评价。
总结
下面是我们从这个项目中学到的最重要的几点:
- 很难找到一个既有丰富的需求知识、又有权利设置优先级的产品负责人。所以人们往往都要用几个人一起扮演产品负责人的角色,尤其是在大型项目里面。
- 如果一定要按期完成工作,那就得保证产品 backlog 的完整,也要做好估算。对需求而言,即便信息量很小,有估算也比没估算的好。把估算跟团队生产率合并以后,发布计划就有了必要的信息。
- Scrum 对多个分布式团队很适用。我们每个 Scrum 团队都既有荷兰人又有印度人,这很好地发挥了团队精神,让我们注重有效沟通。在沟通中,利用现成的硬件和免费软件能节省成本。
- 在启动分布式项目的时候,先把大家都聚到同一个地方,让大家对团队实践达成一致,这点效果很好。
- 对于不适合放到 Scrum Sprint 中的工作(比如寻找关键人员,跟其他客户部门交流),可以让一个单独的团队去做,这样效率更高。特性团队可以集中精力开发软件。有一个专职的技术文案也很好,即便这会增加沟通成本。
- 虽然软件开发过程不需要大量的需求文档,但客户可能需要。不过在 Scrum 项目中,需求文档代替不了用户故事。如果既有需求文档,又有用户故事,那就得在做计划的时候,就要考虑到在两个地方协调需求的额外开销。
- 在增量式交付软件的过程中,自动化测试发挥着关键性作用,它可以排除回归 bug 的干扰。在项目结束之前,投资回报会高过成本的。
参考文献
[1] MIL-STD-498 , The Standard
[2] 《敏捷估计与规划》, Mike Cohn, 2005
[3] Team norming and chartering , Martin van Vliet,
[4] Fully Distributed Scrum: The Secret Sauce for Hyperproductive Outsourced Development Teams , Jeff Sutherland, Guido Schoonheim, Eelco Rustenburg, Maurits Rijk,
作者简介
Martin van Vliet 和 Marco Mulder 在企业系统开发中都有着 10 多年的经验。他们在荷兰为 Xebia 工作,这是一家跨国公司,做敏捷软件开发,在荷兰、法国、印度都有办公室。这家公司的专业范围是 Java 技术、敏捷离岸项目开发、敏捷咨询和培训、IT 架构、审核等方面。参见 http://www.xebia.com/ 。
给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家加入到 InfoQ 中文站用户讨论组中与我们的编辑和其他读者朋友交流。
活动推荐:
2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。
评论