S3 是 AWS 上线的第一个服务,从此开启了 AWS 云计算生态。S3 是 AWS 的基础,EBS、Glacier 让存储产品线更加丰富。日前,InfoQ 采访了亚马逊 AWS S3 产品总监郭蓓菁,此前她还负责 EBS 产品,她从存储角度介绍了 AWS 服务,整理如下。
郭蓓菁认为,从存储的角度 AWS 有 4 大块服务:
第一是 S3。S3 就是互联网的存储 (Internet storage),非结构化的存储。
第二是 EBS,Block storage 是结构化的存储,Block storage 就是要跟 EC2 一起用的。
第三是 Glacier。Glacier 是一个特别便宜的,对于你数据是特别冷的数据,基本上你做归档用。有一些公司医疗或者金融,他们的行业有特殊的规定,你这个医疗的数据要保持 7 年或者 10 几年以上的,那 Glacier 就是一个非常好的服务。你可以放进去,是非常低的价格,是非常长的持久性。
最后是 Storage gateway,是我们的一个服务,帮助客户把它的 on-premise 数据跟云的数据结合在一起的,怎么从 on-premise 运输到云上面去。
接下来,郭蓓菁将 S3 的优势总结为以下 5 点:
S3 就是一个桶,桶里面可以放各种各样的对象,就是非常非常简单的一个服务,API 也非常简单,就是放进去取出来,基本上是任何的开发者都可以用的一个服务。S3 的优势包括:
第一,安全。从 AWS 角度来讲,AWS 的基础架构因为有了这个规模我们可以有专门的团队看着我们怎么构建基础架构,用所有现在市场上面有的基础架构的最佳实践我们都用了,所以一直到基础架构的层面,我们很多安全认证都是达到国际化认证水准,都是全球统一的。
同时,中国北京这个区域我们叫隔离的区域,所以中国客户说我要把我数据放在北京这个区域,那它是不会离开北京区域的,永远是待在这个隔离的区域。
最后,S3 提供加密。从 S3 角度,我们有一个功能就是让客户自己能够加密的,如果客户需要我们加密,我们会自动给客户加密;客户也可以用他们自己的加密钥匙加密,把加密数据送给我们。所以,S3 安全性一直是非常重要的。
第二,可靠,包括持久性和可靠性两点。持久性(Durability)有“11 个 9”。你把数据放进来就可以放心了,基本上不会丢失的。我们有一个客户服务水平协议(Service Level Agreement),可用性是 3 个 9,而我们内部设计的时候是 4 个 9。
第三,简单。我们有 8 年的运营经历,所以在这个方面是非常有经验的。S3 是一个非常容易用的一个服务,那个界面非常的简单,从设计的角度来讲我们非常注重这一点,我们主要的任务就是让我们的客户能够在他们的创新方面速度很快,所以我尽量把我界面做的简单但是有效率。
第四,规模。目前,S3 的存储对象数有几万亿个,最高峰的时候是每秒 150 万次并发请求数,是非常大的一个规模,所以我们可以服务到这样大一个服务群。我们在全球有 10 个区域,51 个边缘节点(Edge locations),而且这个数字在不断的增长,我们每一年都是会投资的。
第五,低成本。我们的文化就是不断的把成本往下降低,不断把价钱往下降,这样客户可以用的更多。
以下为郭蓓菁问答实录:
问:针对对 S3、EBS 的使用场景,亚马逊对用户有哪些建议?
郭蓓菁:因为 EBS 是要跟计算一起用的,EBS 的数据是比较热的。比如你在运营一个应用,你会放到 EBS 上面去,等到数据慢慢变温了,就可以放在 S3 了。举一个例子,在芬兰我们有一个游戏公司,每一个游戏公司都有一个数据库,就是看你这个用户是哪一级,你买了什么东西,它会将数据库放在 EBS 上面去,把用户的日志数据都放在 S3 上,用 S3 把用户日志做分析,或者调到 EMR 里面做分析。所以看用户的案例不一样,需求也是不一样,所以就是给你很多的选择。
另外,S3 与 EBS 有一点不同,EBS 是根据计算需要的,S3 不是的。S3 有一些典型的用户案例:
第一,用户储存。美国我们有一家公司叫做 Dropbox,是我们很大的一个用户,它在美国属于规模很大的,它代表了非常普遍的用户案例。对于他们来讲储存是最主要的了,那它的数据能够有规模,数据持久性要高,而且它的表现也好,价格也是要低。所以 Dropbox 在 S3 上面有很多年了,它是需要一个非常成熟的,非常稳定的存储。
第二,大数据分析也是通常用 S3 作为数据库。
第三,视频。美国有一家公司叫做 Netflix,他跟 Dropbox 有一点不同就是把电影放在上面,然后很多客户会同时观看电影,最厉害的时候是周末的晚上,感恩节,一下子 Netflix 上的用户的互联网访问量规模要达到美国的三分之一,都是通过 S3 提供的服务达到的。
问:AWS 存储是如何保证低成本的?
郭蓓菁:AWS 在软件方面有许多创新,比如怎么做重复数据删除,软件上的算法可以很大程度的影响到成本;运营也是很重要的,比如在数据中心中,机器总有好有坏,坏的机器维修的时候,一定会影响到你对机器的使用率,进而影响到成本。AWS 在运营层面上,也有很多的创新。
问:用户在使用云存储的决策过程中,价格是否会是一个主导因素?
郭蓓菁:以我接触到的客户来看,我觉得客户第一个出发点是看,这一套系统能不能够达到他们的技术需求,需求是第一位的。客户是选一个平台,这个平台能够帮助未来的发展。所以第一是看你能提供的服务的广度。第二,客户要把所有的项目放在你的平台上面,他一定需要对你的平台有信心,不论是可靠度、成熟度、规模等等。这两点是最重要的,我不觉得价格是一个主要的决策点。很多客户是从传统的模式到云计算模式,这两者间是有很大区别的,实际上云已经经济很多了。所以实际上,价格不是客户最先考虑的,反而是服务的成熟度,服务的广度与可靠性会更被看重。
问:AWS 的客户案例有很多日本客户,是有什么原因吗?
郭蓓菁:日本是我们在亚太的一个区域。日本的市场跟中国有一点相似,就是像移动互联网、游戏这些行业的发展特别好。所以,我之前在 EBS 的时候我就是看到日本有很多的游戏公司挺积极的。当然,有很多日本的大型企业,比如 NTT,也在积极拥抱云计算,非常的活跃。
问:刚刚提到 S3 是亚马逊第一个对外服务,包括 EBS,包括 Glacier,多多少少有一些高级功能是依赖于 S3。当初在亚马逊设计云存储服务的时候,是怎么考虑从 S3 开始的?
郭蓓菁:S3 并不是我们第一个开发的服务,S3 是第一个发布的商用服务。S3 当初设计的宗旨,第一,如果要把客户数据放到 S3 上面去,持久性肯定是不能牺牲的,这点非常非常重要;第二,安全性也是非常重要;第三,不停把价格往下降;第四,非常好用,这样任何规模的企业都可以使用。在美国有很多的初创企业,只要一两个人就可以把自己的应用做起来,这些都是在 S3 上面做起来。我们有各种各样的客户案例,客户有各种各样的技术水准,都能够非常持久的,非常高可用的,非常可扩展的,非常便宜的,非常安全的,我们就是这个宗旨,一直都是没有变。
问:S3 有没有一些新的功能出来?
郭蓓菁:S3 是 Internet Storage,这是一个比较新的概念,在传统的存储行业里面是没有这个概念的。所以,我认为是因为有了 S3,我们帮助了很多新型的互联网公司,他们的经济模式改变了,因为有了 S3,他们的很多潜力都可以发挥出来了。过去几年,我们看到很多客户在使用 S3 存储的功能,我们都是在互相学习,我们从客户那学习,他们怎么用我们的,客户从我们这学习我还可以用你的服务做什么,这是共同进步一个过程。S3 现在已经是非常成熟,非常持久,非常可靠存储服务的。
下一步我想看在 S3 的基础上,客户们还在做一些别的事情,英文是说 what are they doing with the data,第一步就是把数据放进来,第二步是说放进来以后在做什么。如果很多客户都在做同一件事情,那对于 S3 来讲就是一个新的产品开发的机会,S3 就会不断的根据客户的需求,帮助他们把新的功能放在我们平台里面去。
我在 EBS 和 S3 都做过,这两个模式是挺不一样的。EBS 跟我们现在 on-premise 的模式挺像的,就是比较传统的方式。S3 就完全不一样了,没有一个 on-premise 的模式,可以进行无限扩展。作为一个开发者,在写应用的时候根本不用去顾虑需要多少个空间,应该写到什么规模,尽管往里面放数据就是好了。你的应用不用放逻辑去扩展,不用放逻辑去考虑性能,因为 S3 的平台已经把这一点全部做好了,这个概念以前是没有了。因为我们有了这个平台,才一下子使得开发者可以去做这些事情。很大程度来讲,由于有我们这个平台,把互联网很多应用开发的难度降低了,因为那些很复杂的问题,我们都已经帮你解决掉了,那你只要自己去考虑你的应用做一些什么。所以,我是挺骄傲的,利用云计算这个挺新的概念,通过 S3 真的把云计算的潜力都激发出来了。然后再把这些潜力送还给我们的客户,给整个云计算的产业。其实,我也非常好奇想知道,在 S3 这个平台上,客户还能够开发出一些样的创新。
问:您怎么看开源?
郭蓓菁:其实我刚刚说了,S3 提供的是一整套服务,技术只是其中一个部分。而且,我们不会说技术上是怎么实现的,是因为我们的技术是在不断的创新。从开源角度来讲,AWS 有部分也是用到开源。其实不管使用什么技术,最终我们还是会回归到安全性、持久性、可用性、可扩展性、还有成本节省。任何一种技术,只有能够帮助我们达到这些特性,而且不断提高,我们都会考虑的。
评论