亚马逊 CTO:从无数实践中总结出 4 条云端构建的铁律

2020 年 12 月 23 日

亚马逊 CTO:从无数实践中总结出 4 条云端构建的铁律

12 月 18 日,云计算行业年度盛会亚马逊 re:Invent 2020 暂告一段落。本届盛会首次在线上向公众免费开放,在三周时间内举办了数百场专业技术论坛,与全球科技行业从业者共同交流和探索了云计算领域最新的技术成果与趋势。在 12 月 18 日的压轴演讲中,亚马逊全球副总裁兼 CTO Werner Vogels 博士登台亮相,回顾了 2020 年科技行业经历的风雨历程,并分享了他对 2021 年科技行业趋势的预测和展望。


近期,InfoQ 大咖说 AWS 专场系列活动的第三期特别邀请到了 AWS 数据分析架构师经理王晓野老师,对 Werner 博士的这场压轴演说做了精彩点评。晓野老师解析了演讲中的亮点金句,并回顾了 AWS 发布和升级的多项服务背后的技术与应用场景细节。


本文总结自大咖说王晓野老师分享的内容以飨读者,有删改。


糖厂与云计算


作为 IT 领域的老兵,晓野老师长期关注企业 BI 及大数据分析、敏捷开发管理、DevOps 等领域,在分布式计算和数据平台建设方面有 10 年的设计与实践经验。加入 AWS 后晓野老师最大的感受就是,行业最先进的技术实践并非 AWS 传授给客户,而是 AWS 从自身服务的大小客户那里学习而来的。与此同时 AWS 可以充当桥梁,将这些实践推广到全球范围,这也是 AWS 的核心价值所在。


Werner 博士今年的演讲地点选在了家乡附近的一座制糖厂。这座糖厂已经存在超过 150 年,逐渐从工厂演变为零售卖场,乃至今天的娱乐与集会场所。在 AWS 看来,这就是一个持续创新和转型的现实案例。但相比之下,糖厂中发生的大小事情都是可以切身感受的,而在线上虚拟环境中人们很难有这种体验,这就需要云端平台提供一系列的工具来帮助人们观察了解,本质上也是为了随时感受事态变化。从这些层面来看,糖厂和云计算有内在的共同点,值得相互学习和借鉴。


从无数实践中总结的 4 条云端构建铁律


在 Werner 博士的演讲中,有四句话引起了开发者群体的广泛关注:


  • Everything fails, all the time(不存侥幸,虽怕一万,更怕万一)

  • Encrypt everything(事以密成,语以泄败)

  • Operations are forever(运维不灭)

  • Monitoring≠Observability(监控≠可观察性)


晓野老师以后两句为重点进行了解析。晓野老师认为,运维不灭这一观点是要向传统运维人员及研发人员传达的。很多传统运维人员对云计算有抵触情绪,害怕云托管服务抢了他们的饭碗。但 Werner 博士要告诉大家,运维本身是生产环境不灭的要素,变化的只是模式和技能而已。在云端背景下,运维和研发团队更加轻量化,运维人员需要掌握各种云端工具,理解企业的规范流程,与研发人员更好地协作,这是非常重要且会持续存在的角色。


从研发人员的角度来说,在云计算时代也需要更多了解生产环境中运维对业务健壮性的支撑和意义所在,并与运维人员合作,共同提升能力,及时响应需求并完成工作。


监控不等于可观察性这一概念很早就在开发者社区中出现了。本质上来说,监控是基于人们已知且理解的知识来监视事物,找到出问题的位置,而可观察性的重点则是要探索问题背后的成因。因此可观察性实际上包含三个要素:日志(logging)、监控(monitoring)和追踪(tracing)。


在 AWS 的诸多实践中,分布式、微服务化的架构往往涉及数百个服务、几百支团队,可观察性的本质就是在这些团队协作时寻找问题的根源和解决方案。由此可见,可观察性在生产环境中是非常重要的指标。相对应的,云平台也提供了很多工具来提升可观察性,帮助开发者和运维人员提升协作和响应能力。


持续创新,直面挑战


过去多年来,AWS 发布了大量服务和产品,不断为客户带来创新的技术和理念。晓野老师认为,所有这些服务背后都有一个共性,就是帮助开发运维人员从底层的繁琐事务中解脱出来,将精力投入在应用和业务创新上。此外,虽然万事都可能遇到失败和挑战,但是 AWS 可以凭借丰富的经验帮助客户提前预防,并在出问题时与客户共同面对。


2020 年,整个 IT 产业,乃至全社会最大的挑战无疑就是全球性的疫情。由于疫情的冲击,很多线下业务持续萧条,与此对应的是,暴增的线上需求给在线业务的扩展能力带来了巨大考验,传统的本地化运维模式遭受了巨大冲击,除此外,还有很多企业希望有效利用手中掌握的大量数据和资源来帮助社会预防和控制疫情……所有这些都是 IT 产业需要共同面对的问题,也是 AWS 高度关注和深度参与的领域。AWS 会采取各种行动和创新来应对这些挑战,利用云计算的力量帮助整个社会渡过难关,这也是 AWS 的重大职责所在。


此外,AWS 还会关注人类社会的长远利益。例如今天的 Amazon 是全球最大的可再生能源采购商,因为 Amazon 拥有庞大的规模,有足够的能力去大规模采购这类资源,与传统 IDC 相比,AWS 提供的云服务在能源效率上可以带来 88%的提升,有利于全球变暖下的二氧化碳排放的控制。AWS 承担的责任和采取的行动也在各个层面体现着 AWS,乃至云计算对社会的价值和意义,这也是 Werner 博士在演讲中强调的重点。


AWS 创新服务和技术理念一览


本次压轴演讲中还提到了一些重要的 AWS 服务,晓野老师在分享中一一做了解读。


AWS CloudShell


AWS CloudShell 是 AWS 面向深度开发者发布的一项服务。AWS CloudShell 为习惯了命令行界面的开发者提供了云端命令行的操控界面,开发者可以通过它登录控制台,调用 AWS 的所有 API,完成各类云端任务。


与传统通过密钥获取授权的方式不同,AWS CloudShell 通过身份认证功能直接授予预使用者相应角色,并可限定角色可访问的资源与细分权限,免除登陆前密钥拷贝和存储的步骤,避免潜在的安全漏洞,增强了云端管理的安全性。


可控混沌工程


在 Werner 博士的演讲中提到了一个名为可控混沌工程的概念。这一概念是相对于线性的可解释逻辑的。我们生活的世界在很多时候并非线性可控,而是处于随机不可控的状态。所谓可控混沌工程,就是在这样的环境中依旧保持平台的稳健性。


例如在数百个微服务的应用架构中随机断开某些服务、关闭某个网络、改变某个防火墙规则,由此产生一些随机混乱,并观察应用的整体是否还能维持健壮性,这就是可控混沌工程的一种模式。Werner 在每年的演讲中都会强调 “design for failure” ,出于这一理念,可控混沌工程提早通过人为的混乱来检验并修正应用,从而加强应用 / 架构的健壮性。


AWS Fault Injection Simulator


AWS 即将在 2021 年推出的 AWS Fault Injection Simulator 服务就是可控混沌工程的一个实现工具。这一服务可以在生产环境中帮助开发人员测试应用的健壮性,例如随机断开部分 API、注入一些错误数据和网络流量等,从而在生产环境中验证应用的可靠性。这一服务是开箱即用的,可以帮助开发人员直接在生产中实践可控混沌工程。


Amazon Grafana/Amazon Prometheus


Amazon Managed Service for Grafana(AMG)和 Amazon Managed Service for Prometheus(AMP)是本次大会新发布的两项服务。这两项服务都是旨在提升可观察性的工具,结合了多种用户习惯使用的监控和展示功能,同时通过托管的方式隐藏了用户不需要的底层复杂性。


Amazon 作为 CNCF 云原生基金会的成员,一直以来都在鼓励和推动云原生社区的成长。这两项服务也适用于 CNCF 社区理念,是基于云原生的思想开发的,适应社区需求的工具。


AWS Distro for OpenTelemetry


今年 AWS 还发布了一项 AWS Distro for OpenTelemetry 服务。关于这项服务,晓野老师提出了一些见解和看法。


首先,OpenTelemetry 是一个云原生计算开源标准架构,是 CNCF 的一个组成部分。它的宗旨就是提升可观察性,涉及日志、监控和跟踪等工作。而 AWS Distro for OpenTelemetry 是 AWS 针对这一标准架构的一个生产实现。


AWS 意识到,很多客户会在 AWS 云端使用托管的开源工具来提升企业能力,例如增强易用性、改善监控调度工作等。这些客户存在一个共同的诉求,就是希望将这种云端体验带到 IDC 机房或本地资源上,于是 AWS 就针对这些需求推出对应的 Distro 发行版。包括 AWS Open Distro for Elasticsearch、Amazon EKS Distro 和这次的 AWS Distro for OpenTelemetry,都力求为客户提供云上云下统一的开发体验,使得开源社区的成果能够更好地惠及客户的业务和需求。


在大咖说的最后,晓野老师也总结了 Werner 博士的演讲,乃至整个 AWS 的核心理念:


我们的核心想法是,无论在云上还是云下,我们都希望为客户和广大开发者社区提供好用的工具,帮助大家解决人类的种种业务问题,帮助我们社会去做一些更有价值的事情。


大咖说围绕亚马逊 re:Invent 2020 大会的 Keynote 专题至此就告一段落了。下一步大咖说专栏还将推出其他节目,为大家带来更多技术干货,欢迎继续围观。


点击观看直播回放。


2020 年 12 月 23 日 22:01134

欲了解 AWS 的更多信息,请访问【AWS 技术专区】

评论

发布
暂无评论
发现更多内容

两年竞业禁止、没有赔偿的CTO | 法庭上的CTO(1)

赵新龙

CTO 竞业禁止 试用期

Defi系统APP开发|Defi软件开发

开發I852946OIIO

系统开发

Kafka 和 RocketMQ 之性能对比

丁威

kafka 源码分析 RocketMQ 中间件 性能分析

第一周作业

极客大学 极客大学架构师训练营

【得物技术】搜索引擎技术简介

得物技术

搜索引擎 技术 算法 排序 搜索

只能用分布式锁,也能搞定每秒上千订单的高并发优化?

Java架构师迁哥

公安警务大数据可视化平台开发建设

t13823115967

大数据 大数据平台 智慧公安

价值、产业、数据加密,区块链如何助力互联网升级?

CECBC区块链专委会

区块链 互联网

看区块链如何打通信息壁垒,盘活万亿级”积分”市场

CECBC区块链专委会

区块链 信息

拆解增长黑客之知识篇

丁一

产品 运营 增长

LeetCode题解:52. N皇后 II,回溯+哈希表,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

从战略到战略决策

Alan

战略管理 使命 愿景 战略思考 MVO

智慧公安大数据分析平台开发解决方案

t13823115967

大数据技术 大数据平台 智慧公安

我对业务方提出需求的态度

boshi

随笔杂谈 需求落地

ETV全球熵APP系统开发|ETV全球熵软件开发

开發I852946OIIO

系统开发 现成系统

京东云的云原生理念及Serverless最佳实践

lidaobing

腾讯 WXG 后台开发工程师对 MySQL 索引知识点总结

Java架构师迁哥

区块链产业下的“非遗”突围战:商业化和手艺人发掘

CECBC区块链专委会

区块链 非遗

训练营第七周总结

大脸猫

极客大学架构师训练营

线程池的优点及其原理,代码实现线程池。简单、明了。

Linux服务器开发

网络编程 线程池 后端开发 Linux服务器 web服务器

智能与影像的强耦合:华为Mate 40系列的视觉探索

脑极体

Java程序员做外包,10个月收入40万

Crud的程序员

Java 学习 程序员 外包

架构词典: 复盘

lidaobing

架构 复盘

区块链中的保险行业

13828808769

区块链技术应用开发 保险理赔

第二周作业

Geek_b9053c

依赖倒置原则

每周学点TARS——服务自定义命令

TARS基金会

c++ DevOps 后端 TARS

mysql的这些坑你踩过吗?快来看看怎么优化mysql?

比伯

Java 编程 架构 面试 计算机

《操作系统概述》-第六版

计算机与AI

操作系统

可参考才是有价值的,架构设计的技改之路从来都不容易

互联网应用架构

架构设计

一周信创舆情观察(11.23~11.29)

统小信uos

HTTP协议概述

落日楼台H

https HTTP 协议 HTTP2.0 HTTP3.0

亚马逊 CTO:从无数实践中总结出 4 条云端构建的铁律-InfoQ