InfoQ 研究中心诚意出品,一份报告带你走进中国 2000 万开发者 了解详情
写点什么

首都在线郑义:十年定能磨一剑,专注把 IaaS 服务做到极致

  • 2016-07-08
  • 本文字数:5114 字

    阅读完需:约 17 分钟

1997 年首都在线开始经营拨号上网业务,19 年的时间这家公司已逐渐从 ISP 服务商、IDC 托管服务商,成功转型为云计算服务供应商,专注于向企业级客户提供 IaaS 服务。去年他们还曾在自己的云平台发布会上提出了“云连接世界”的口号,力图为客户提供稳定的全球私有化网络服务。

7 月 16 日首都在线即将以“6.18”背后的高并发电商系统架构实践为主题,在北京举办最新一期蝴蝶沙龙活动,为此InfoQ 提前采访了首都在线首席产品官郑义,请他分享了首都在线云服务的发展历程、遭遇的挑战及其对目前国内电商行业发展情况的看法。

InfoQ:请先谈谈您的个人经历,以及目前正在从事的主要工作。

郑义:高中毕业后开始出国学习,在英国完成了大学本科的学习,专业是计算机网络。毕业后,正好有机会进入 Janet 做网络相关的工作,Janet 是英国最大的面向科学研究和教育机构设立的专用网络,类似中国教育网。在这家公司最后做到了网络部经理,主要负责整个英国教育网的规划和实施工作。

大概在 07、08 年的时候,我离开了 Janet 进入 MaxNett 公司。这家公司主要是做的是 IT 服务,当时赶上英国的金融危机,对于 IT 服务公司来说,必须要提供一种解决方案帮助客户掘钱。在那个年代,MaxNett 就开始做云计算相关的业务,也是因此我开始接触云计算,直到 2011 年。

离开 MaxNett 后我来到了首都在线,首都在线是我在中国的第一份工作。在首都在线负责的工作相对比较多,刚开始主要负责云计算平台,后来开始带售前团队、解决方案团队,再后来做了两年的运维总监,期间做了海外的业务。从今年开始,我又回到技术岗位做产品,我现在担任 CPO,主要负责首都在线所有产品相关的工作,除了平台产品的落地、新产品的开发,更主要是去规划更长远的,比如两年以后、三年以后首都在线应该干什么,这就是我现在的主要工作。

InfoQ:接下来我们聊聊首都在线,关于首都在线的历史,这背后是否有一些故事?想请您结合自己的一些亲身经历,介绍一下首都在线的发展背景和成就?

郑义:很多人都知道,首都在线是一家很老的公司,而现在的公司想注册首都两个字是很难的,所以从名字也可以感受到这到家公司的历史感。

首都在线是 1997 年开张营业的,当时做得第一个业务是提供拨号上网服务,为什么取名叫首都在线?当时,我们好像是全国除电信、网通以外第三方提供拨号上网服务的第一家公司。在中国互联网发展初期的年代,大家对于网络的认识也都比较浅,拨个电话号码就可以上网,当时电信是 169,网通是 163,而首都在线提供的拨入号是 263,所以这个名字就是从那个时候来的,而这也是一家拥有 20 年数据和网络业务经验的专业服务公司。

当时互联网应用比较少,所以首都在线自己做了一些应用。大家应该听过,当时我们在著名的 263 集团的网络域名下面提供各种相对偏底层的互联网技术服务,比如基础性的 DNS 服务、互联网时间同步服务等等。后来 263 集团发展为国内专业的收费企业级电子邮件服务供应商,因此与首都在线的业务分离,开始独立发展。

InfoQ:在这么长的一段时间里,首都在线肯定积累了特别多的硬件资源,作为一家云平台服务公司,除了硬件之外肯定还需要软件的支持,想请您谈一下首都在线软件的架构是怎么样的?基于自主研发、开源软件或者用其他第三方的商业软件?理由是什么?

郑义:我们的确积累了很多网络方面的经验,在 2010 年选择云计算方向的时候,对我们来说这绝对是个很新的技术概念。虚拟化是实现云计算的关键技术之一,而那时可选的虚拟化平台并不多,只有 Hyper-V、VMware 等,但首都在线走的是 IDC 转型云服务的路线,因此我们非常清楚我们的客户需要什么。

首都在线云计算业务的设计初衷,就是为了解决如何快速提供服务,如何稳定为客户提供服务的问题。我们提出了快速、安全、稳定这几个必须的要求。当时我们在设计的时候,我们面向的两大类客户,一个是游戏开发者,一个是大型企业,而他们对整个 IT 平台的要求,就是我们设计云平台的一个出发点。所以我们提供的解决方案跟今天市场上很多都不一样,在虚拟化这一层,我们选择的是商用的解决方案,而这种商用的解决方案并不是为公有云设计的,因此我们在过去的几年时间里就需要投入非常多的人力物力去自主研发一个云计算平台,虚拟化软件只是其中很小的一部分,更重要的是,我们怎么能让首都在线这套平台更好的去管理我们的服务器以及网络资源。

现在市场上很多企业都在使用 OpenStack 这类开源平台,而我们就相当于是从头到尾编写了一个自己的 OpenStack 平台。这当然会耗费很多的精力,也一定会带来很多问题,但是这么做所带来的好处是,我们的服务更适合我们的目标客户。实际上在我们这几年的努力当中,我们在电商、游戏这些行业取得的成果是有目共睹的,基本上国内主流电商以及主要的游戏公司也都是我们的客户,而这些成就正是对我们软件平台的一种肯定。

InfoQ:从市场推广或者是官网上来看,首都在线目前的主要产品依然还是云主机,那么为什么首都在线不像其他的供应商一样,涉足更多的领域或是拓展产品线呢?

郑义:首都在线内部的愿景实际就是要把云主机做好,把 IaaS 服务做好。不论是之前主营 IDC 托管业务还是到现在,首都在线一直都将业务重心聚焦在基础设施服务上,我们认为 IaaS 未来的市场仍然会变得更大。另外一点,我们认为要所有领域的东西都做到最好实在是太困难了,因此我们只专注于将 IaaS 做到最好,而这就已经非常不容易了。

首都在线实际上在 PaaS 和 SaaS 方面也会推一些服务,比如云安全、DNS 服务或者是即将推出的备份服务等等,但是这些服务全部都是由我们的合作伙伴进行开发的。两年前,我们投资了一家叫首云的公司,我们的 PaaS 服务就是他们负责去做的,这家公司的员工基本都来自像 IBM、惠普这种大型的 IT 服务公司,他们知道企业用户真正需要的 PaaS 是什么样的,而且这家公司也会提供一些像云安全、云备份这类的 SaaS 服务。而同样的模式,我们也在跟其他的垂直领域的合作伙伴在合作。

首都在线希望搭建的架构,是一个非常稳定且庞大的 IaaS 平台,上面各种 PaaS 服务,都是由专注于提供相关服务的公司所开发出来的,而我们的用户也有很多就是 SaaS 服务供应商。同时首都在线也是一个开放的平台,希望能让更多的专注做 PaaS、SaaS 的企业能够跟我们一起合作,共同打造一个完整的云计算服务生态系统。

从用户的角度来看,过去几年首都在线都在有意去选择更专业,需要更高的生产型企业作为目标客户,以便在产品的交付模式,后台的服务模式以及产品的价格上形成市场差异化。所谓生产型企业是指它需要利用这个平台来盈利,服务器宕机或者服务中断一两秒都是不允许的。而当面对这样的客户时,我们服务团队的优势就会体现出来了,我们有 7×24 小时的技术人员在帮助这些客户,他们在任何时候遇到故障或困难,我们都会有人来进行处理。对于企业规模更大的客户,我们还有大客户服务团队,其中的技术人员非常了解大企业的 IT 架构,能够快速的解决客户的问题。而这也是首都在线在企业业务目标上有别于其他云服务供应商的体现,就是以更专业的技术与更专业的服务来面对需求更高的用户。

InfoQ:去年首都在线在产品发布会上提出了云连接世界的口号,通过自己的全球私有化网络实现了全球主机的稳定联网,这背后对网络的要求可能会非常高,所以想请您谈谈背后的这些挑战是怎么解决的?有什么样的解决方案?

郑义:我们的网络解决方案是重点发展方向,是因为我们在过去几年云计算整个经营过程中,我们看到了这样的趋势,所有的客户在满足市场需求的情况下,也在寻求发展,也不得不使用一些国外的服务,而如何保证数据和网络之间连接的稳定性,就成为了客户的一个紧迫的需求。

如何解决各国之间带宽拥挤的问题,如何真正用好现有的网络资源,这里面的挑战是非常大的。因为我们的专线或者我们自己的网络,从去年发布到现在都是免费的,因此成本问题,也让我们面临着巨大的压力。

那么该如何解决这些困难呢?首先是技术方面,我们有很长远的技术积累,我们之前从事拨号上网服务,因此我们在网络方面的经验非常丰富。其次是资源方面,云计算是网络上的一个服务,我们之所以从网络这个角度去深入到云计算,我们也是希望能让客户能够重视起网络的问题。很多用户会被一些新的功能或者技术所吸引,而忽略了背后网络的意义,云服务跟其他东西不太一样,它完全是一个通过互联网上使用的服务,没有一个很好的网络架构,不可能变成一个完整的 IT 系统的。

关于具体的解决方案,首先,我们自己有 SDN 在运行,我们也在上面做了很多的开发,让整体的全球的传输网络,实现全自动化配置,全自动化扩展以及对所有用户的流量分别进行分析以及优先级排序,在很多网络里面有各式各样的通讯,有的通讯是需要保障通讯,有的通讯可能只要保证它不断就可以,那在网络上面必须要对这些东西进行分类,这里我们积累的 SDN 等技术也起了很大的作用。

InfoQ:618 刚刚过去,国内主要的电商平台都是首都在线的客户,对于电商平台来说高并发访问是一大挑战,而且大部分电商平台都会在同一个时间段,做一些大规模的促销活动,这对基础设施的稳定性和扩展性的要求就会更高,所以想请您谈谈首都在线是怎么应对这种情况的?在性能和资源之间怎么找到平衡点?

郑义:这一点说复杂也不复杂。最主要的,应对这件事要有规模,事实上我们能够应对 618 的各种事件,或者说能够应对比如双 11,或者比如我们之前的一个客户,当苹果要发布一个新的 iOS 系统时,需要做大量的测试。

我们之所以能够应对这些情况,首先在整个技术平台上,我们有大规模的服务器以及资源储备。盲目去买一堆服务器不是办法,那么如何让这些负载能够更好地、更均匀地分布在各式各样的刀片服务器上,这才是我们对硬件管理的核心技术。云服务供应商特别是 IaaS 供应商,首先要做好的,就是管理好自己的硬件资源。我们自己写的叫 GIC 的类似 OpenStack 的平台,每时每刻都在监控着所有这些刀片的负载,哪些人的负载高,哪些人的负载低,哪些人的波峰出现在昨天晚上的几点等等,我们的平台会有完整记录。

比如 618,它会发生在十二点,我们就会把一些没有发生在十二点波峰的这些客户的应用转移到相应安全的一些机器上去,因为有的人的波峰可能出现在晚上两点,有的比如一些国外用户的波峰可能出现在早上四五点,因为于我们有长期的数据记录,我们可以分析出来,怎么样让放在我们服务器上的电商的服务器能够平稳的度过它高峰期的一个交易浪,最主要的还是决定于供应商对硬件资源的管理。大家都知道,只要服务器多,来多少大规模促销都可以,但是对一个企业来说,盈利是最终目的,所以最核心的要求还是在于管理,有效地去分配现有资源,而我们的确在云计算业务上获得的所有的收益都来源于对这些硬件资源的有效管理。

InfoQ:对于电商平台来说,公有云的安全性一直是比较受关注的问题之一,那么首都在线是如何保障用户数据安全的呢?

郑义:数据安全需要从两个方面来谈。一方面我们经常说的数据安全是指确保数据不丢失。其实我们自己最初在选择平台的时候,考虑的就是安全性以及稳定性。我们选用了商用方案,没有用到任何的开源或者相对廉价的服务来搭建存储系统,从一开始我们用的就是企业级高端的存储产品直到现在,所以对于数据存储的安全我们是可以保证的。

另一个安全,指的是我们内部的管理,对于内部的管理,我们曾去中国银行的数据中心学习过,因为金融数据是很敏感的,因此它对安全性的要求也很高。当时我们学到的一个非常重要的运营方式,就是不能把开保险柜的两把钥匙或者能够打开这些数据保险柜的钥匙交给同一批人。我们执行的方案也很类似,能拿到数据的人并不知道数据有什么用,而知道数据价值的人绝对拿不到数据,这样就能保证数据是非常安全的。

InfoQ:首都在线有很多客户是电商的平台,在您看来国内现在的电商业务发展对云服务的需求是否很大?而从云服务供应商的角度来看,又会有哪些挑战需要面对呢?

郑义:国内电商不像国外电商那样一年中只在圣诞节期间进行一次大规模促销活动,国内电商服务器流量波峰出现的次数要远远大于国外电商,而云服务的弹性伸缩能力,可以非常好的解决资源灵活调配的问题,使电商不用再纠结于高并发与成本控制之间的矛盾,因此云服务非常适合电商使用,而电商也确实对云服务有很大的需求。

对于云服务供应商的挑战,首先对于电商来说,他们更倾向于中立的供应商,中立的供应商可以提供相对放心的服务,而如果供应商不中立,就可能会出现互相抢占生存空间的问题,这对于电商用户来说,是不太愿意看到的。第二,如何更好地管理自己的硬件资源并快速的交付给电商用户,这也是云服务供应商需要不断思考和解决的问题,只有不断提升自身的服务质量和服务体验,才能更好的满足用户需求,提升用户粘性。

2016-07-08 02:121714
用户头像

发布了 31 篇内容, 共 90805 次阅读, 收获喜欢 0 次。

关注

评论

发布
暂无评论
发现更多内容

小型企业需要CRM系统的理由

低代码小观

CRM 企业管理系统 中小企业 CRM系统 客户关系管理系统

KeyDB重量发布6.3.0开源版

华为云开发者联盟

redis 开源 多线程 分布式缓存 KeyDB

开源生态在中国:播撒种子,待成雨林

科技热闻

使用APICloud AVM多端框架开发企业移动OA办公的项目实践

APICloud

企业应用 APP开发 APICloud 多端开发 avm.js

摆平各类目标检测识别AI应用,有它就够了!

华为云开发者联盟

计算机视觉 CANN 昇腾 目标检测识别 YoloV3

“超级计算机”——GPU云服务器

Finovy Cloud

gpu GPU服务器 GPU算力

云计算的云是指什么?最简单的解释是什么?

行云管家

云计算 云服务 私有云 混合云

Hacker 资讯 | 5 月上旬区块链黑客松活动汇总

TinTinLand

区块链

vuejs中的普通方法/计算属性computed与监听属性watch四者的比较

itclanCoder

JavaScript Vue 前端开发

vuejs中的mixin混入-局部混入/全局混入

itclanCoder

Vue 前端开发

时间轮算法

领创集团Advance Intelligence Group

算法 时间轮算法

讨论两种Redis中Token的存储方式

华为云开发者联盟

Token key 存储token userid

等保和分保的区别是什么?哪个更厉害?

行云管家

网络安全 等保 等级保护 分保

HTTP请求转发那些事:你可能不知道的Hop-by-hop Headers和End-to-end Headers

华为云开发者联盟

HTTP 请求转发 web 容器 F5

第三代区块链DFINITY布局DeFi,开发者如何抓住机遇

TinTinLand

区块链

柏拉图会成为元宇宙风险标吗?PlatoFarm的机会很大

西柚子

招募 | 加入DFINITY 进阶开发,人人都是下一个“张一鸣”

TinTinLand

区块链

以太坊L2跨链明星——Arbitrum 为开发者带来区块链入门方案

TinTinLand

区块链

批量作业调度引擎 TASKCTL 安装与实例部署

TASKCTL

程序员 DevOps 分布式 ETL 自动化运维

netty系列之:HashedWheelTimer一种定时器的高效实现

程序那些事

Java Netty 程序那些事 5月月更

毕设不会做,怎么办?

图灵教育

机器学习 深度学习 毕设

datax关系数据库/图数据库(neo4j)插件设计与实现

中间件XL

neo4j 图数据库 DataX 读写插件

这些年,使用缓存踩过的坑

鲸品堂

缓存

邀您填写调研问卷 | 2022中国 AIOps 现状调查全面启动!

博睿数据

AIOPS 博睿数据

《安全大讲堂》 第十四期|不破不立:软件供应链的威胁与方案

腾讯安全云鼎实验室

供应链 安全大讲堂

vuejs中的默认插槽-具名插槽-作用域插槽三者的比较

itclanCoder

JavaScript Vue 前端开发

首都在线郑义:十年定能磨一剑,专注把IaaS服务做到极致_云计算_任美芒_InfoQ精选文章