李程远, 诺基亚西门子移动通信平台系统架构师 (Platform Release Chief Architect),负责诺基亚西门子下一代 WCDMA 移动通信平台的设计与开发。他也是 InfoQ 中文站即将召开的 ArchSummit 架构师峰会的讲师。
李程远于 2005 年加入诺基亚,先后担任 Senior Engineer,Architect, Chief Architect, 一直工作于 WCDMA 产品的分布式计算平台与高性能传输平台。李程远毕业于浙江大学计算机系,曾参与编写《Linux2.4 内核源代码分析大全》 与 《Linux 与嵌入式系统》两书。后就职于英特尔,参与开发基于Intel VT 技术的虚拟机Xen 技术。
在本次ArchSummit 架构师峰会上,李程远会做名为《移动通信网络设备的高可用性平台设计》的演讲。电信系统和设备对于可用性有着极高的要求。系统冗余备份模型、内部消息的冗余机制、网络与传输、存储系统、过载保护与残留资源的清理等等,这些都是移动通信网络设备在设计时要考虑的问题。 本演讲就是从这些地方入手,深入探讨如何设计移动通信网络设备的高可用性平台。
InfoQ:您将在 8 月份举行的架构师峰会上演讲。能介绍一下您关注的领域吗?
李程远:对于移动通信网元平台设计,需要关注处理器架构以及其网络协处理器的特性,操作系统,基本的网络协议栈,CGL/SAF 等电信级高可用平台的标准,以及部分 3GPP 标准。
InfoQ:您从事移动通信平台的系统架构设计,这类平台的可用性模型有什么特别侧重的地方吗?比如说对实时性要求特别高?
李程远:对的,实时性是其中的一方面,例如冗余备份模块切换时间要尽量短,减少数据缓冲量,否则会使数据延时增加过多。不过最重要的,这类平台需要同时满足不同类型服务的高可用性需要,以及在满足高可用性前提下,系统还必须具备高性能。 InfoQ:您的演讲将介绍冗余备份模型,这里面主要解决哪些问题?能举一些典型的应用场景吗?
李程远:移动通信网元是一个比较复杂的系统,它有几个不同类型的连接接口,如一个 RNC(Radio Network Controller),就有 Iub、Iur、Iu 等接口来连接其他不同的网元, 同时每个接口又要提供用户平面(user plane),控制平面(control plane),管理平面(managment plane)的服务。通常一个网元内部会有几十甚至上百个节点(Node)同时运行,各个节点可能会使用不同体系架构的硬件,运行不同 OS 和功能模块。如何将这些资源(物理的资源、逻辑的资源)有效管理并提供高可用的服务,就需要建立冗余备份模型,而且是各种不同的冗余备份模型。
例如,集中式的管理平面模块,它在系统中是不可以缺失的,否则整个系统就停止服务了,因此它的冗余备份模型就是“2N,hot active-standby”,即一旦 active 的模块出现问题就马上可以切换到 hot standby 的模块上,服务不会有影响。又例如,为手机(UE)通话或者上网 提供服务的模块,它在系统中模块数目是最多的(几十甚至上百),它的冗余备份模型可以是“N-way active, load sharing”——即使一个模块失效,上面的负载可以重新分配到其它模块上,影响只是部分手机用户的通话中断,但是可以立刻接通。 InfoQ:在系统可用性这个领域,过去几年存储方面特别热门,网络和传输的讨论得少一些。网络和传输在可用性的问题里面扮演什么样的角色呢?
李程远:这个和具体的产品相关,IT 服务器在存储方面的要求比较高,高可用性会集中在存储方面的讨论。移动通信的网元,像 RNC、MGW(媒体网关),它们对存储设备的使用比较少,大多只是配置方面的内容会放在硬盘上,在系统长时间运行过程中,其他需要实时更新在硬盘的数据量很少,因此它们对存储的高可性要求不高。移动通信网元的主要功能是建立尽量多的通话以及传输尽量多的数据,无论是整个网元还是内部的各个模块都是消息来驱动的,因此网络和传输的高可用性在移动通信网元中就是主要角色了。 InfoQ:看起来为了保证网络和传输方面的高可用性,系统的内部通讯、外部通讯需要有针对性的设计,能给我们举一两个例子吗?
李程远:内部通讯需要结合冗余模型设计管理通讯地址,这样用户可以使用单一地址发送消息而不需要关心目的模块是否失效或者已经切换迁移到另一个节点 。对于外部通讯需要设计冗余接口,同时结合 ECMP (Equal Cost Multi-Path) 或者 SCTP multi-homing (针对信令数据)等技术来提高外部通讯的高可用性。 InfoQ:站在应用的角度,网络传输的层面似乎应该是透明的。一般的应用架构有必要关心这个层面的事情吗?
李程远:对,传输层面对应用是透明的,这也是平台层应该做到的。但是好的应用程序,仍然需要对重要的控制消息加入 transanction ID 以及三次超时重传机制,这对产品的质量是多一层保障。
相关信息
给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。
评论