教年轻 AIoT 创业者如何从 0 到 1 实现AIoT 创业项目 了解详情
写点什么

Cloud Foundry 遭遇存储故障

  • 2011-04-28
  • 本文字数:1623 字

    阅读完需:约 5 分钟

尽管这次瘫痪不同于 Amazon 用户所经历的那次,但是日前 VMware 的 Cloud Foundry 发生的存储基础设施的故障仍然让多数用户感到冒莫名其妙——为什么无法登陆控制面板并执行 vmc 指令?由云控制器(Cloud Controller)的设置导致的故障致使用户无法启动和停止应用,无法创建新实例、也无法通过 vmc 命令行工具或 Eclipse IDE 与之交互。不过很明确,正在运行的应用实例未受影响。

发布于本月初的 VMware Cloud Foundry 集(运行在 VMware vSphere 上的)托管 PaaS 服务 ( cloudfoundry.com ) 和开源开发环境 ( cloudfoundry.org ) 于一体。Cloud Foundry 支持(Java 开发者使用的)Spring、Rails、Sinatra 和 Grails 等框架。该项目由 VMware 资助并托管,整个 cloudfoundry.com 目前处于 beta 阶段,在此阶段结束前免费向用户开放。

有别于 Amazon,VMWare 在 Cloud Foundry 支持网站和 Twitter 上每个小时通报一次状态更新,让其用户随时了解问题的最新进展。昨天上午,一个 Twitter 用户帖出一则消息:“有没有人在执行#cloudfoundry vmc 命令时碰到 404 错误,这种情况是几分钟前开始的。”随后,Cloud Foundry 发 Twitter:“我们碰到一个问题。应用还可以继续运行,但是与应用的连接却断断续续。”事发几个小时之内,Cloud Foundry 支持网站上即发出如下消息:

通知:我们正在持续解决 CloudFoundry.com 服务的一个存储故障。该故障影响用户登录和管理其应用,但不会影响到正在运行的应用实例。我们将每小时一次地持续发布该故障解决的最新进展。

接下来的更新表明,问题已经找到并且预计系统将于 PDT 时间 12:30 恢复运行,但是应急处理小组错过了这一时间点,他们解释道:

存储基础设施中的故障已经找到而且解决了,但是将系统安全地恢复到全功能的运营状态,确保并验证无数据丢失发生,却是一个缓慢的过程,

当天下午 InfoQ 采访了 VMware 应用平台高级总经理 Jerry Chen,他对这一故障做了确认——用户无法登录 vmc 命令行工具执行命令。Chen 说:

我们向用户每小时一次地持续更新故障解决的最新状态,直到 PDT 时间下午 4 点故障最终解决为止。我们感到欣慰的是用户能够透明地获得我们的更新。近期我们还会针对此次故障发布更多信息。

最后的解释指出问题出在云控制器( https://github.com/cloudfoundry/vcap/tree/master/cloud_controller )上。据 Ezra Zygmuntowicz 发表的博文,“云控制器是系统的’大脑’”。它是一个 Async Rails3 应用,对外公开 REST 接口,命令行工具 vmc 通过该接口访问云控制器;另外,开发者通过 Eclipse 的 STS plugin 访问云控制器。昨天的某个时刻,我们发现云控制器被设置成了只读模式,导致用户无法登录、启动和关闭应用、创建新应用、通过 vmc 命令行工具或 Eclpse IDE 访问系统。Cloud Foundry 还解释:

正在运行的应用不受此影响,但是若这些应用奔溃了,Cloud Foundry 的自治愈功能会受到影响。健康管理器组件 https://github.com/cloudfoundry/vcap/tree/master/health_manager 将不能执行正确的恢复动作。

明显,beta 项目存在若干待解决的缺陷。前日故障之后的第二天 cloudfoundry.com 和 cloudfoundry.org 又停用了一个多小时。这一停用与用户抱怨“所有应用都被重定向到同一网址”相符。公司最初的报道是:

我们的数据中心出了点问题。我们将尽快解决问题,抱歉给您带来不便。

不久之后,支持网站再次发表声明,表示 Cloud Foundry 正在维护之中,因为“需求量大”所以正在扩容。说到底 Cloud Foundry 仍然处于 beta 阶段,过去的这两天里,提供项目托管服务的人们一定吸取了很多教训。可是,用户们却无能为力,他们只能看着、等着,期待其数据依然完好无损。对于那些希望深入了解此次事件的人,有几篇很好的文章 **经验总结:今天的EC2/EBS 停用 ** 可以参考。

正如最近发生的事件告诉我们,即便是很小的宕机时间,都能对组织 / 企业带来巨大影响;至少,当今每个 IT 组织都应该做好故障应对的计划。


查看英文原文: Cloud Foundry Experiences Storage Failure

活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2011-04-28 01:102176
用户头像

发布了 184 篇内容, 共 74.3 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

openGauss —— 智能优化器之基数估计

daydayup

基于无监督训练SimCSE+In-batch Negatives策略有监督训练的语义索引召回

汀丶人工智能

人工智能 自然语言处理 语义搜索 搜索推荐系统

Sprint Boot学习路线4

小万哥

Java spring 微服务 Spring Cloud Spring Boot

Amazon Aurora Serverless v2 正式发布:针对要求苛刻的工作负载的即时扩展

亚马逊云科技 (Amazon Web Services)

MySQL

重磅更新 | 大幅提升数据集命中预期;AI 联网搜索能力也来了!

Dify

AI技术 开源软件 LLMOps

面部表情识别的挑战和前景

来自四九城儿

openGauss数据库从3.0.0升级到3.1.0操作实践

daydayup

面部表情识别的技术实现

来自四九城儿

数据库迁移系列】从MySQL到openGauss的数据库对象迁移实践

daydayup

“数智新应用”不再是口号,看汽车、医药、制造企业如何突出重围?

Kyligence

数智化转型

既要增长又要人效,零售人准备好接受老板的灵魂拷问了吗

Kyligence

数据分析 零售行业

nginx常用配置教程。

百度搜索:蓝易云

nginx 云计算 Linux 运维 云服务器

2023-08-02:给定一棵树,一共有n个点, 每个点上没有值,请把1~n这些数字,不重复的分配到二叉树上, 做到 : 奇数层节点的值总和 与 偶数层节点的值总和 相差不超过1。 返回奇数层节点分配

福大大架构师每日一题

福大大架构师每日一题

语义检索系统之排序模块:基于ERNIE-Gram的Pair-wise和基于RocketQA的CrossEncoder训练的单塔模型

汀丶人工智能

人工智能 自然语言处理 排序算法 语义搜索 搜索推荐系统

活动预告 | 中国数据库联盟(ACDU)中国行第二站定档杭州,邀您探讨数据库技术与实践!

墨天轮

数据库 oracle postgresql AntDB oceanbase

openGauss的SQL引擎在3.1.0版本中做了哪些优化?

daydayup

java代码加壳加密工具 jar-protect

车江毅

如何利用 AI 在 5 分钟批量产出 100 篇 SEO 文章?

Dify

批量任务 SEO AI技术实践 LLMOps

语义检索系统:基于无监督预训练语义索引召回:SimCSE、Diffcse

汀丶人工智能

自然语言处理 nlp 向量检索 语义检索 搜索推荐系统

ubuntu编译安装kernel教程。

百度搜索:蓝易云

云计算 Linux ubuntu 云服务器 内核

阿里云出品—高分计算机好书推荐榜

穿过生命散发芬芳

计算机图书

面部表情识别在人机交互中的应用

来自四九城儿

关于前端低代码的个人看法

EquatorCoco

软件开发 低代码 前端框架

openGauss赋能企业核心场景应用 | 华为全联接大会2022专题回顾

daydayup

openGauss内核分析(二.二):简单查询的执行

daydayup

这个Python项目让古诗变得更易读,看完《长安三万里》惊艳了!

程序员晚枫

Python 拼音 长安三万里 古诗词

金奖方案 | 一专多能、傲视寰宇,南大通用GBase8c数据库牛在哪里?

daydayup

openGauss内核分析(二.一):简单查询的执行

daydayup

AI大模型之花,绽放在鸿蒙沃土

脑极体

鸿蒙 AI

openGauss内核荣获中国首个国际CC EAL4+级别认证

daydayup

语义检索系统:基于Milvus 搭建召回系统抽取向量进行检索,加速索引

汀丶人工智能

自然语言处理 nlp 搜索推荐系统 语义搜索系统 向量搜索

  • 扫码添加小助手
    领取最新资料包
Cloud Foundry遭遇存储故障_Ruby on Rails_Michael Floyd_InfoQ精选文章