写点什么

又拍云 CDN 全网实时、精准化监控技术实践

  • 2016-01-10
  • 本文字数:1244 字

    阅读完需:约 4 分钟

又拍云如何在国内业界率先做到 CDN 全网实时、精准化监控?就这个问题,又拍云 CTO 黄慧攀于 8 月 25 日在“云头条”做了专题分享。内容涉及监控在云服务中的重要性,以及实现监控性能提升的技术实战方法。

首先,从整体上讲,又拍云的云服务有三块:

  • CDN
  • 云存储
  • 云处理

每个云服务的监控侧重点各有不同。

CDN:监控性能和可用性

又拍云的 CDN 用到了听云(基调)和安全宝、DnsPod 等外围的服务监控。zabbix 是最基础的服务器监控,它的不足之处在于:

  1. 实时性差;
  2. 无法方便的对业务进行监控(需要做大量对接工作)。

Agent 是 又拍云自己写的 shell 脚本,负责从服务器自身内部发现问题,并告警。如:本机的各个业务系统是否在正确运行,和当前服务器连接关键机房的网络质量等。缺点在于如果自身网络出现问题就无法告警,但能根据自己的业务特点,做多种健康检查,比较灵活。

数据中心:自主研发狗眼监控系统

注:标黑色线的,表示该项监控的主要用途

数据中心有两块大业务:

  • 云存储
  • 云处理

去年又拍云用 zabbix 来负责服务器硬件资源的监控,但无法满足需求,所以我们又拍云自己开发了一个系统,命名为“狗眼系统”,来专门做服务监控。它可以监控到又拍云某项具体服务:

  • 吞吐量
  • 平均处理耗时

更重要的是,它能做到秒级告警,又拍云数据中心每个子业务都做了狗眼的接入,以保障整个平台的稳定性。

举个例子,某个客户上传一个图片,并要求做缩略图存储。这会牵扯到几个业务系统:

  • API;
  • 云处理;
  • 云存储。

如果上传失败,或者上传很慢,以前又拍云通过 zabbix 观察哪台服务器压力大,非常麻烦,在集群服务的情况下单台服务器根本不反映集群的服务状态。

而在开发出狗眼监控后,又拍云能准确的判断到哪个子业务的负载有问题,影响到了整个业务流程,比如:云处理环节出问题了,影响到整个文件上传速度。 狗眼会根据历史情况,判定当前这秒的数值是否偏差,异常,并做出告警。又拍云的工作人员马上检查云处理这个服务集群的状况,了解是否因为当前的处理量过大或者网络读写等情况导致。

狗眼系统从 2013 年 12 月开始开发,耗时 1 周。用了将近半年时间连接 又拍云服务。“狗眼”有 20w 个 UDP 包的处理能力,有了狗眼系统,又拍云从原来的盲人摸象,进化为具有敏锐的“嗅觉”。能快速准确的定位为问题。

日常监控:实时日志分析系统

另外,又拍云还有实时日志分析系统。有些具体的错误信息需要在日志里面体现出来。日志分析系统无法做全量,一般 200 OK 正常的请求日志没必要记录和处理的,又拍云只处理 code & 400 的记录。

有这么多个渠道给出告警信息,还得避免狼来了的情况发生,对告警进行去重、筛选非常重要,黄慧攀将监控分了主要的 2 种角色,互相配合一起来做告警,方便维护。

这些监控最有用的是历史数据,在上面可以分析出异常,如又拍云针对全国机房的链路情况,每 10 分钟采一次样,采集到的数据加以处理总结出一些规律,如有些机房在晚高峰的时候会总出口拥堵而导致性能下降。更细致的观察需要根据节点的服务日志记录分析,如平均下载速度,下载速度大于 10mbps 的比例,回源慢的影响比例等。

2016-01-10 01:031296

评论

发布
暂无评论
发现更多内容

EndNote 21 for Mac 大客户授权(文献管理软件)

Mac相关知识分享

大模型在软件测试中的应用论讨

京东科技开发者

服装智能制造软件平台(源码+文档+部署+讲解)

深圳亥时科技

DistilQwen2 蒸馏小模型在 PAI-QuickStart 的训练、评测、压缩及部署实践

阿里云大数据AI技术

最佳实践 PAI DistilQwen2 大模型蒸馏

【GreatSQL优化器-03】查询开销估算

GreatSQL

数据库 greatsql

如何安全有效的删代码?

京东科技开发者

Unlocking New Possibilities: IPQ6010 QCN9074 Qualcomm Solutions in Phased Array Antennas for Wi-Fi 6 and mmWave

wallyslilly

IPQ6010 QCN9074

产品经理如何高效的进行需求管理

易成研发中心

需求管理 需求管理工具

DriveDx for mac(mac磁盘健康检测和监控工具)

Mac相关知识分享

《一文讲透》第 1 期:KWDB 单点安装部署

KWDB数据库

数据库 Influxdb 开源数据库 国产数据库 容器化部署

如何在Go语言中实现表单验证?整一个validator吧!

左诗右码

《一文讲透》第2期:两种 KWDB 的快速上手连接方式

KWDB数据库

oracle 物联网 JDBC 开源数据库 数据库架构

如何进行需求管理

易成研发中心

需求管理

AI像人一样操控电脑:多模态AI Agents和屏幕交互新范式

Baihai IDP

程序员 AI LLMs Baihai IDP AI Agents

家政平台(源码+文档+部署+讲解)

深圳亥时科技

IoTDB 航空航天解决方案:从制造到试飞,助力国之重器翱翔长空

Apache IoTDB

如何进行需求全周期管理

易成研发中心

需求管理

基于主动元数据 构建智能数据治理体系

京东零售技术

大数据 数据

Astute Graphics for Mac(全系列ai插件合集)支持ai 2021

Mac相关知识分享

昆仑万维推出「天工大模型4.0」4o版(Skywork 4o),实时语音对话助手Skyo上线在即

新消费日报

企业RAG构建中,如何用“行级别权限管控”避免数据泄露

Zilliz

权限管理 Milvus 企业数据安全

人工智能 | 检索增强生成(RAG)

测试人

软件测试

国产化身份目录 芯盾时代数字身份产品矩阵

芯盾时代

数字身份 信息技术 iam 国产化替代

火山引擎携手长虹电器,“插件+大模型”赋能AI TV电视数智升级

新消费日报

Acrobat Pro DC 2021 for Mac(专业PDF编辑软件)中文版

Mac相关知识分享

Java代码之美,从遵循样式规范开始

京东零售技术

Java 架构 后端 代码

EXCEL导入—设计与思考

京东科技开发者

【HarmonyOS NEXT】异步编程的神器之Promise

冉冉同学

鸿蒙 HarmonyOS 客户端 harmony HarmonyOS NEXT

SimbaSchema在数据云平台中的可观测性实践与应用

奇点云

可观测性

简单聊聊快递行业需要过等保的必要性-行云管家

行云管家

堡垒机 等保测评 过等保 快递

又拍云 CDN 全网实时、精准化监控技术实践_音视频(后端)_UPYUN_InfoQ精选文章