写点什么

Azure 全球中断三小时:微软回复称 DNS 更新故障

  • 2019-05-05
  • 本文字数:1386 字

    阅读完需:约 5 分钟

Azure全球中断三小时:微软回复称DNS更新故障

5 月 2 日 19:29 到 22:35 UTC 之间,微软 Azure 发生了三小时左右中断,导致 Azure、Microsoft 365、Dynamics 和 DevOps 等多项服务出现连接问题。


根据最新消息,本次事故发生在 DNS 迁移期间,具体时间为 5 月 2 日 19:29 到 22:35 UTC 之间,大多数服务在 UTC 时间 21:40 恢复,其余服务在 22:35 UTC 恢复。根据微软方面的回复,造成该事故的根本原因如下:


作为计划维护活动的一部分,微软工程师执行了配置更改,以更新用于访问多个微软服务(包括 Azure 存储和 Azure SQL 数据库)的 DNS 区域名称服务器(name server)之一。更改过程失败导致这些区域的四个名称服务器(name server)之一指向没有数据的 DNS 服务器并返回否定响应。结果是,这些服务使用的域(例如database.windows.net)中大约 25%的查询产生了错误结果,并且这些服务的可访问性降低。因此,依赖于这些核心服务的多个其他 Azure 和 Microsoft 服务受到不同程度的影响。


该事件对 Azure 计算、存储、App Service、Azure AD 身份服务和 SQL 数据库产生了连锁反应。根据外媒 The Register 此前的报道,本次受影响的服务包括 SharePoint Online,OneDrive for Business,Microsoft Teams,Stream,Power BI,Planner,Forms,PowerApps,Dynamics 365,Intune 和 Office Licensing。



微软方面表示,此事件源于两个独立的错误和一些巧合,这两个错误本身其实不会产生影响:


1、微软工程师执行了名称服务器(name server)委派更改以更新多个区域的名称服务器,包括 Azure 存储和 Azure SQL 数据库。其中,每个区域有四个名称服务器用于冗余,并且在此维护期间仅对一个名称服务器进行更新。用于进行更改的自动化参数配置错误导致名称服务器委派错误。


2、作为先前自动化工作的一部分,空区域文件存在于非指定委托的预期目标服务器上。这本身并不是问题,因为名称服务器没有为相关区域提供服务。


但是,由于此实例中更改自动化出现配置错误,被委派的目标名称服务器是空副本。因此,此名称服务器对区域中所有查询给出了否定(nxdomain)答案。由于该区域的四个名称服务器记录中只有一个是不正确的,因此受影响区域大约四分之一的查询收到不正确的否定响应。



为解决此问题,微软工程师通过将名称服务器值还原为先前的设置来更正委派问题。工程师验证所有响应都是正确的,DNS 解析器开始在 5 分钟内返回正确结果。某些访问错误值并缓存结果的应用程序和服务可能需要更长的恢复时间,直到错误的缓存信息到期为止。在事件发生期间,微软多次更新页面,并逐渐恢复服务。该公司向客户保证,DNS 记录在活动期间没有受到影响,并且 Azure DNS 本身仍然存在。


对此,微软方面建议用户可以执行以下操作(包括但不限于):


  • 执行名称服务器更新代码中的附加检查,以防止意外更改(正在进行)。

  • 预执行建模,以准确预测变更结果,并在执行[正在进行]之前检测潜在问题。

  • 改进每个区域,每个名称服务器监视器,立即检测导致一个名称服务器偏离其他名称服务器(正在进行)的更改。

  • 改进 DNS 命名空间设计,以更好地允许分阶段推出更改,同时降低增量影响(进行中)。


根据了解,这不是微软 Azure 第一次发生服务中断。1月份,全球Azure中断影响了 Office 365,Azure 和 Dynamics 365 服务,原因也与 DNS 有关,微软方面表示是 Level 3 托管 DNS 服务出现问题。去年底,Azure AD 多因素身份验证中断使全球的 Office 365 用户无法登录其帐户。


2019-05-05 19:505545
用户头像
赵钰莹 极客邦科技 总编辑

发布了 883 篇内容, 共 648.1 次阅读, 收获喜欢 2680 次。

关注

评论 1 条评论

发布
用户头像
宕机年年有啊
2019-05-05 19:52
回复
没有更多了
发现更多内容

掌握设计模式之简单工厂模式

不在线第一只蜗牛

Java 设计模式

基本性能监控系统使用:确保系统健康运行

测吧(北京)科技有限公司

测试

Web Service 加压实战:如何有效进行性能测试

测吧(北京)科技有限公司

测试

性能监控系统的价值:提升系统稳定性与用户体验

测吧(北京)科技有限公司

测试

搭建服务端性能监控系统 Prometheus:从零开始的实践指南

测吧(北京)科技有限公司

测试

SD-WAN对MPLS和网络安全的重要意义

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SD-WAN国际专线

HarmonyOS 5.0应用开发——全局广播的使用

高心星

广播 ArkTS HarmonyOS NEXT 进程间通信

【C++】类的继承的深入探讨

EquatorCoco

掌握 JMeter 常用组件:深入了解性能测试的利器

测吧(北京)科技有限公司

测试

互联网大厂 Java 500 道核心面试题全解析

采菊东篱下

编程 程序员 java面试

追觅科技DREAME应用鸿蒙版上架,引领智能清洁行业新风尚

最新动态

Python实现火柴人的设计与实现

快乐非自愿限量之名

Python

精通 JMeter HTTP 请求属性设置:模拟真实用户的 HTTP 请求

测吧(北京)科技有限公司

测试

元通汽车:顺国企改革之势,创财务共享新篇

用友智能财务

财务 企业数智化

婚恋服务平台(源码+文档+部署+讲解)

深圳亥时科技

中昊芯英泰则®AI计算集群系统入选“数字样板工程”实践案例

科技热闻

震惊!5分钟就能开发一个微信小程序游戏?

cloud studio AI应用

战略合作计划 | 诚邀医疗行业技术伙伴,与 TapData 共同打造数字化解决方案行业标杆

tapdata

智慧医疗 数据上报 实时数据集成 患者360视图 电子病例

分享8款企业级多项目进度计划控制管理工具

爱吃小舅的鱼

项目进度计划管理工具

公链技术开发之路:从概念到实现的全攻略

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

《ERP vs. HAP》白皮书正式发布

明道云

精通 JMeter 监听器与测试结果:高效收集与分析性能数据

测吧(北京)科技有限公司

测试

Demo发布 | ClkLog成功集成Unity3D

ClkLog

uni-app 开源 sdk React Native Unity3D

性能分析:系统级别指标(IO、CPU、内存、网络)的监控与优化

测吧(北京)科技有限公司

测试

解放军总医院医学创新研究部刘晓莉:数据实战Datathon活动的价值意义及多学科如何一起开展

ModelWhale

Python 人工智能 大数据 医疗 datathon

东风财务信创存储改造:开启数据新纪元,领航金融新征程

XSKY星辰天合

为什么现在Java初中级面试也要问高并发相关问题?

开心学Java

面试 Java并发 高并发 架构师 八股文

掌握 JMeter 虚拟用户管理:高效模拟负载并优化性能测试

测吧(北京)科技有限公司

测试

阿里工作10年,我总结出了这套Spring全家桶全彩核心笔记

开心学Java

spring 架构师 springboot SpringCloud java面试

JMeter 变量与引用:提升性能测试的灵活性

测吧(北京)科技有限公司

测试

JMeter 后置处理器:提升测试脚本的灵活性与可扩展性

测吧(北京)科技有限公司

测试

Azure全球中断三小时:微软回复称DNS更新故障_服务革新_赵钰莹_InfoQ精选文章