写点什么

大规模公有云的自动化工具

  • 2014-07-11
  • 本文字数:3620 字

    阅读完需:约 12 分钟

云计算已经不仅仅是虚拟基础设施的快速自助式服务。开发者和管理员正在寻求规模化云计算的供应和管理方法。这篇 InfoQ__ 文章是关于动态计算资源池维护的自动化工具和理念系列的其中一篇。可以通过这里订阅这一系列文章的新文章发布通知。

早期云计算的典型部署是,一两个员工使用几台服务器针对某个特定需求搭建一个小规模私有云。然而,随着整个企业中越来越多的员工使用各种云服务模型(IaaS,PaaS,SaaS)中的大量功能,我们已经看到越来越多的公有云采用案例。

随着更多的组织扩展对公有云服务的使用,它们小到初创企业,大到全球最大的企业和政府。同时,大规模云计算的各种问题也开始不断出现。

大规模公有云的潜在问题

毋庸置疑,各类企业通过采用公有云都获益匪浅,不过大规模的采用公有云也伴随着很多挑战和风险。最主要的有如下几方面:

成本

最初使用公有云时,仅允许有限的少数几个人访问,这时跟踪成本相对简单。然而,随着更多(通常是相互独立的)部门中越来越多的人获得访问权限,你可能会遇到功能重复,过度供应、未经授权的采购、未使用的“僵尸”实例、多余的带宽和存储费用、以及其他一些不必要的影响因素,不断蚕食着预期的成本节省

未经授权的访问

对小规模的公有云服务访问的管理相对简单,但是随着公有云的采用规模逐渐增加,管理将很快失控。公司的前雇员在离职后可能仍然留有访问权限,员工的角色变化后,并没有相应的更新访问权限,新员工难以访问到其所需要的资源等。由于多数云服务提供者无法提供企业级的安全保障,随着逐步扩大公有云的采用规模,你将很快成为未经授权的访问的牺牲品。

恶意入侵

比员工的访问权限控制问题更严重的是,外部对云服务的恶意入侵。密码丢失,共享的用户ID,数据泄漏,简单密码,社会工程学,网络钓鱼和恶意软件都有可能使公有云服务暴露在数据丢失,篡改,攻击,拒绝服务和其他恶意入侵的影响之下。

人为失误

公有云服务规模较小时通过人工就可以容易地管理,但随着规模的不断扩大,不可能持续地增加人力资源以维持其可管理性。这就意味着更少的人有更多的工作要做,均衡法则告诉我们最终肯定会有人犯错误。进而可能会导致大规模的故障,尽管这并不是云服务独有的问题

可见性

当只有少数几个服务时,管理可以很细致,只要一两个人就可以了解这些服务的部署位置,配置方式,成本花费,使用情况,所属关系,问题原因,解决方案,服务关闭时间,恢复办法等。然而,在规模较大的系统中,随着公有云部署规模的不断扩大和更多用例的访问放开,云的使用情况将变得越来越不清楚。

分类诊断

可见性差导致的其中一个后果就是问题的分类诊断也变得更加困难。例如,如果不知道系统运行在哪里或者它如何与其他的服务连接,基本上就无法确定事务流变慢的原因。系统思维方面的专家 W. Edwards Deming 曾经说过,“不可衡量者不可管理,”也许更恰当的说法是,不可见者不可管理。

可审核性

可见性差的另外一个副作用就是,随着越来越多的系统和服务被抽象到云服务中,追踪谁在访问什么,何时,如何以及为什么访问就变得越来越困难,与可审核性有关的关键问题也就随之而来。如果没有自动化的工具,在大规模云环境下,跟踪,记录和审查访问、变更,、故障、曝光率、利用率等信息将会变得非常困难。

可恢复性

尽管严重的停机故障并非云所独有,但是几乎每周我们都会听到新的令人关注的公有云故障的报道。然而多数云服务提供者,特别是商品化服务,并未内置恢复功能;即便是更加健壮的服务,也可能无法提供及时的恢复服务或优先考虑你的业务需求。如果没有系统可用于备份、故障转移和恢复,停机故障将会导致灾难性的后果。

用自动化解决所有这些问题

所有这些问题的解决办法就是 IT 自动化。当然,自动化并不是银弹;而且对有缺陷的流程进行自动化只能让坏事在没有控制的情况下执行得更快。不过,如果实施得当,各种形式的自动化工具可以让你在扩大公有云部署规模的同时避免上述诸多问题。

例如:

  • 流程自动化可以在更大的范围、更广的区域、以更低的成本快速地执行和整合已有的任务和工作流,并且能够为人们提供比预期更完善的审计和控制。
  • 供应自动化可以控制何人,何时,为何及如何创建和发布何种云服务,从而减少错误,消除僵尸服务,并使得成本跟踪和细粒度的审计和控制成为可能。
  • 配置自动化可以确保系统补丁得到及时安装,无用的端口得到及时关闭,系统漏洞得到及时消除,超支得到及时控制,系统是可重用的,并且能够减少错误的发生。
  • 即使在最大型的云计算部署中,事件监控也可以跟踪到错误,并且可以确保触发事件是清晰可见的,根本原因能够被尽早确定,警报得到及时升级,并且能够在问题变得致命之前,及时发现并解决这些问题。
  • 容器化可以提供更高层级的抽象,将用户从某个云计算基础设施或平台的细节中抽离出来。这样用户就可以快速地完成从一个服务到另一个服务的低接触(low-touch)迁移,从而更好地满足灾难恢复和成本控制需求。
  • 具有自动检测、通知、升级及分类诊断问题能力的性能监控工具,可以为提供必要的可视性,避免糟糕的体验,预防由于问题诊断不善导致在云容量上花费过高而造成的成本超支。
  • 备份和恢复自动化可以让故障对终端用户完全透明,特别是当它们与事件和性能监测工具相连,或用于在云应用中构建容错和灾难恢复机制时。
  • 发布自动化可以在不需要人工干预的情况下将云环境中的新应用和更新应用自动从开发环境转到生产环境,从而加速在大型部署环境中的创新,同时降低人为失误,确保可审核性并消除恶意代码。
  • 身份及访问管理可以在需要时为用户提供必要的云服务访问权限,在不需要时回收相应的权限,从而达到防止恶意入侵,消除数据丢失,启用审计和控制,提升可见性以及控制使用成本的目的。
  • 容量管理可以让云平台的消费者更准确地预测他们的服务增长情况和峰值需求,以及何时应该释放资源,从而做到在帮助控制云资源的成本的同时,减少潜在的服务问题。

此外,自动化让公有云具有了之前通过传统的手工方式无法具有的新的能力。例如,使用诸如 DevOps 之类的新手段加速大规模应用程序的交付,可以说这只有在具有自助式供应、配置管理、测试自动化和发布自动化等解决方案的前提下才是可行的。与此类似,如果没有 API 访问自动化、身份管理、资源运用、和成本控制的解决方案,新兴的云 API 经济中大量极好的机会就会演变成巨大的风险,甚至可能导致灾难性事件。

最关键的自动化工具

上述这些自动化工具和原则在公有云部署最佳实践中都发挥了不同的作用。在没有了解具体部署案例的目标和限制之前,就轻言哪些自动化工具更加关键并不是非常合理。当然,在多数情况下,一些工具确实要比另外一些工具更加重要,如果非要让我选择最重要的前三个自动化工具,我会选择如下三个:

  • 身份及访问管理——如果不能保证正确的人在正确的时间能够获取到正确的资源,那么其他一切都是空谈。假如对你来说,保护基于云环境的数据和服务是最大的顾虑,那么身份及访问管理就是必需的自动化解决方案之一。
  • 供应自动化——对于许多云服务来说,供应自动化是非常基础的功能,但是这一功能的粒度是非常关键的,特别是对审计和控制来说。手工供应可能是造成公有云部署中人为失误和成本超支的最大原因。
  • 性能和可用性监测——这也许是所有部署的终极武器,即使在最大型的大规模和高性能的云部署环境下,也能够让你了解问题发生的时间和原因,以及如何有效的修复这些问题。

总结

对于现有的公有云服务来说,自动化能力是必不可少的。任何像样一点的云服务肯定都会包含一些基础的自动化能力——例如自助式供应,利用率监测或退单拒付(chargeback)。

然而,正如我之前曾经写过的,目前可能没有哪一个云服务提供者能够提供更加高级的自动化能力,特别是商品化的云服务

在了解了采用公有云的机会和风险之后,需要根据自身的工作量和目标合理选择正确的服务提供商并使用适当的自动化工具对其进行补充。

只有正确地集成了自动化解决方案,为用户提供并增强了信心,安全,性能,速度和控制,才能够完全发挥公有云的潜能。

关于作者

Andi Mann 作为 CA Technologys 的首席技术官和副总裁,是一位卓越的数字化业务主管,作为战略家、技术专家、创新者、营销人员和沟通者都具有丰富的全球经验。Andi 作为广受欢迎的咨询顾问、评论家和演讲家,拥有跨越五个大洲,超过 25 年的经验。Andi 著有两本书,他的博客地址是 Andi Mann – Übergeek,也可以通过 @AndiMann 在 twitter 上找到他。

云计算已经不仅仅是虚拟基础设施的快速自助式服务。开发者和管理员正在寻求规模化云计算的供应和管理方法。这篇 InfoQ__ 文章是关于动态计算资源池维护的自动化工具和理念系列的其中一篇。可以通过这里订阅这一系列文章的新文章发布通知。

查看原文链接: The Top Automation Tools for Public Cloud at Scale


感谢马国耀对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-07-11 11:593480
用户头像

发布了 75 篇内容, 共 64.3 次阅读, 收获喜欢 6 次。

关注

评论

发布
暂无评论
发现更多内容

索信达宣布接入百度文心一言能力 加速推进AI在金融场景落地应用

索信达控股

前端监控稳定性数据分析实践 | 得物技术

得物技术

前端 前端监控 客服业务

设备端资源包文件(人脸库,音频库,图片资源等)更新方案——实践类

阿里云AIoT

阿里云 物联网 IoT 对象存储

面向复杂业务场景下的低代码平台组件设计与实践分享

百度开发者中心

低代码平台 amis

极客时间运维进阶训练营第八周作业

忙着长大#

一文读懂NodeJs知识体系和原理浅析

coder2028

OpenCloudOS 如何利用 nettrace 进行网络故障诊断

OpenCloudOS

Linux

IDM下载器软件2024中文版

茶色酒

idm下载

美团前端经典vue面试题总结

yyds2026

Vue 前端

信息安全“狂飙”不止,WorkPlus为政企数字化保驾护航

BeeWorks

更专业的出海服务商,融云荣膺 GTC2022 鲸鸣奖「优秀出海服务商」

融云 RongCloud

出海

Zabbix 官方推荐的标签使用准则

北海

运维 zabbix 标签 IT运维 tag

vue实战-深入响应式数据原理

yyds2026

Vue 前端

有哪些前端面试题是面试官必考的

coder2028

JavaScript 前端

企业IM即时通讯软件:就选安全稳定、自主可控的WorkPlus

BeeWorks

vue实战-完全掌握Vue自定义指令

yyds2026

Vue 前端

从0到1,亿级消息推送的稳定性保障 | 得物技术

得物技术

稳定性 消息推送

美团前端常考面试题(必备)

Geek_02d948

JavaScript 前端

社招中级前端笔试面试题总结

Geek_02d948

JavaScript 前端

京东物流实时风控实践

Apache Flink

大数据 flink 实时计算

致远互联2022年度净利9946.37万,研发投入增加;从人出发,人即流程、人即绩效

B Impact

FL Studio推出全新21中文版水果工具

茶色酒

FL Studio 21

2023前端vue面试题(边面边更)

yyds2026

Vue 前端

架构实战营模块二作业

null

党政军IM私有化搭建,WorkPlus构建军工行业即时通讯安全底座

BeeWorks

即刻下载|连锁零售数字化转型难?领先企业实践助你打开新思路

Kyligence

大数据分析 指标中台

得物供应链复杂业务实时数仓建设之路

得物技术

数据库 大数据 技术架构

webpack高级配置

Geek_02d948

JavaScript 前端

融云「百幄」系列产品,两组套件、三类价值赋能政企八大业务场景

融云 RongCloud

产品 办公 百幄

webpack配置完全指南

Geek_02d948

JavaScript 前端

大规模公有云的自动化工具_安全_Richard Seroter_InfoQ精选文章