OpsRamp是一个面向混合企业的以服务为中心的 AIOps 软件即服务(SaaS)平台,最近发布了新的拓扑图、增强的人工智能 IT 运维(AIOps)功能以及针对云原生工作负载的监控功能。
新版的 OpsRamp 平台为现代 IT 运营管理团队提供了 Kubernetes 监控、智能警报路由和拓扑图。它为混合基础设施监控和管理提供了更强大的以服务为中心的环境,让企业 IT 团队能够采用更智能的事件管理机制,并提供卓越的用户体验。
OpsRamp 产品管理副总裁 Mahesh Ramachandran 将“以服务为中心”定义为:
以服务为中心的观点将数字运营团队的重心从管理元素转移到管理业务服务。OpsRamp AIOps 解决方案旨在通过更快的补救和事件响应来满足服务可用性和性能需求。这样可以帮助 IT 组织将基础设施环境从一系列设备、资源和配置重新构建为一系列业务服务,我们认为这些服务更易于管理。它还将传统 IT、DevOps 和业务目标整合并统一为一个共同愿景。IT 像业务一样思考其所需的资源——以服务为核心。
新版本提供了影响可见性和服务上下文功能,可发现混合云和多云 IT 技术栈中多级资源之间的拓扑关系。拓扑图旨在帮助基础设施和运营团队了解 IT 资源对彼此以及面向最终用户的 IT 服务的影响。OpsRamp 的拓扑发现功能现在可用于应用程序和 hypervisor。应用程序拓扑功能可发现 40 多种流行的企业应用程序,并在应用程序组件和基础设施之间建立拓扑关系。hypervisor 拓扑功能可发现 VMware vSphere 和 KVM 环境中的虚拟机、hypervisor 服务器和集群以及它们之间的关系。
OpsRamp 还增强了服务地图功能,提供了新的用户界面,可以识别 IT 服务中断背后的底层资源,让运营团队制定正确的恢复服务行动方案。新版本引入了一些新功能,包括自动事件创建和路由、推理模型的增强训练和频率驱动的警报升级。
OpsRamp 的OpsQ现在可以使用警报升级策略进行自动事件创建和路由,根据之前的警报、事件和通知数据自动分配事件。机器学习驱动的警报升级使用特定的学习模式(受让人组、业务影响、紧急程度和优先级)为不同类型的警报路由事件分配。OpsRamp 的基于机器学习的推理模型使用历史警报数据关联由常见原因引起的警报。OpsQ 现在允许使用用户提供的训练数据来增强这些模型。通过这种增强训练,IT 运营团队可以引导 OpsQ 识别日常运营中不常见的警报序列,当发生警报时能够识别出来。要增强模型,用户可以构建电子表格(或使用示例模板),使用预定义的数据(解析器组、类别、子类别、优先级、紧急程度和业务影响)将事件升级到服务管理。然后将这些数据应用于 OpsRamp 的事件管理工具和第三方事件管理集成。
OpsQ 支持新的策略,比如根据最近发生警报的频率来升级警报。运营团队因此可以过滤掉只是偶尔会发生的警报,并升级反复发生的警报。OpsRamp 平台提供了多云事件监控功能,以及发现和监控支持现代微服务架构的容器基础设施的功能。
OpsRamp 现在可以在本地和云端(例如 Azure Kubernetes Services、Google Kubernetes Engine 和 Amazon Elastic Container Service for Kubernetes)发现和监控 Kubernetes 环境。DevOps 团队可以了解每个 Kubernetes 集群的总服务(每个集群的节点和容器、按命名空间划分的 pod)和资源趋势(CPU 和内存利用)。用户可以监控与集群、主机、NameSpaces、pod 和容器的可用性和性能相关的关键指标。在公共云中,事件是重要的运维问题通信媒介,而在多云环境中,事件是信号的主要来源。OpsRamp 现在可以从 AWS 服务(如 AWS Health、ECS、Redshift、数据迁移服务和 CloudWatch)收集、聚合、关联和升级事件。有了这个功能,OpsRamp 可以对跨多个云帐户的云事件进行单点监控、管理和修复。
新的 OpsRamp 版本还提供了包含补丁合规性验证的补丁管理功能、综合事务和 SSL 证书监控、用于监控开源应用程序的集成,以及简化分类和链接的知识库增强。
查看英文原文:https://www.infoq.com/news/2019/02/opsramp-service-centricity-aiops
评论