2023 年 5 月 27 日,中国信息通信研究院(以下简称“中国信通院”)混沌工程实验室主办,华为云计算有限公司、腾讯云计算(北京)有限责任公司协办、InfoQ 极客传媒支持的混沌工程实验室深圳站沙龙成功举办。沙龙以“保障系统稳定,构建韧性业务”为主题,旨在共同交流实践经验,深入探索业务系统的稳定性保障,提升行业内对系统稳定性的认知。本次沙龙吸引了多位业内专家、企业负责人和社区的系统稳定性专家到场参加,并吸引线上超万人观看。
致辞
沙龙邀请中国信通院云大所云计算部主任马飞发表致辞。马主任表示,要实现高质量发展,重视业务系统的韧性和稳定安全运行至关重要,并提出三个展望:在战略上稳定运行将成为企业发展的重要目标、在工程上服务韧性工程将成为稳定运行目标实现的关键要素、在生态上“稳保”标准将成为促进技术发展的重要动力。马主任还提到,信通院自 2020 年开始研究稳定性保障工作,包括标准制定、政府支持和行业服务,他希望通过此次沙龙,传播先进技术思想和理念,分享最佳实践,推动稳保工作健康快速发展。
SRE 白皮书及系列标准启动仪式
中国信通院依托混沌工程实验室,基于 SRE 理论,自 2021 年起相继完成多项行业标准的制定,涵盖了可观测性、混沌工程等关键技术领域。在深圳站沙龙上,中国信通院与华为云、腾讯云、天翼云、中国移动、中国联通、阿里云共同启动 SRE 白皮书及系列标准的撰写工作。这一合作将充分发挥各方优势,借助混沌工程实验室的支持,进一步推动 SRE 领域的发展与创新。
稳定可信云|《云服务稳定运行能力标准体系》解读及首评招募
中国信通院云大所高级业务主管王海清对“云服务稳定运行能力标准体系”进行了详细解读并启动了首批评估工作。工信部信管局于 2022 年 6 月组织 “云服务稳定安全运行应急演练专项活动”,中国信通院全程支持了此专项活动,对全国 31 个省市的 65 家企业进行了针对云主机(含宿主机)、云存储、云网络、容器集群、消息队列以及云数据库等主要云服务的稳定性保障能力考察。
该标准体系是基于上述专项活动构建的,旨在保障企业云上系统的稳定性,提升服务连续性,促进业务的高质量发展。为推动标准的实施,中国信通院依据标准内容正式启动首批测评工作。该测评工作面向云服务提供商及自建云服务用户,综合运用混沌工程、可观测性和全链路压测技术,从稳定性架构设计水平的考察和“稳保”测试分级确认两个方面,综合评估被测云服务的“稳保”水平,及时发现和总结云服务中的潜在问题和实战经验,助力企业打造“稳定可信的云”。
首批评估共发布 8 类云服务评估方案,包括云主机、云存储、云网络服务、消息中间件、容器服务、分布式缓存、内容分发 CDN 以及融合云 DNS 服务。欢迎相关企业咨询参与!
各方嘉宾发表精彩演讲
金蝶云
金蝶软件研发工程与运维部副总经理邹俊发表了题为《金蝶云稳定性运维及平台建设实践分享》的演讲,并从自助运维、多产品、安全高可用和数字化运营四个维度对金蝶云的稳定性运维进行了详细阐述。
腾讯云
腾讯云计算(北京)有限责任公司云技术运营服务部研发总监周峰在分享中带来了《腾讯云混沌工程实践》,他详细介绍了腾讯云在应对动力不足、影响不可控和门槛过高等混沌工程落地挑战方面的经验。
货拉拉
深圳依时货拉拉科技有限公司的大数据 SRE 负责人张伟伟,在演讲中分享了《货拉拉大数据 SRE 体系建设实践》,并重点介绍了货拉拉在考虑稳定性保障要求时,如何从离线计算场景和实时计算场景两个核心场景的能力保障角度开展建设。
华为云
华为云计算技术有限公司的测试技术专家钟锦锋分享了题为《基于字节码增强的非侵入微服务健壮性评估》的演讲。在演讲中,钟锦锋提出了华为云在微服务流水线的α阶段中引入可靠性测试环节的实践。
安信证券
安信证券股份有限公司的互联网应用运维专家梁恩浩,为大家带来了题为《混沌工程在证券行业的实践与探索》的技术分享,梁老师详细介绍了在安信证券如何应对证券行业在稳定性保障方面的两个核心问题:数据不丢失和业务不中断,以及强实时性和强监管所带来的挑战。
中国移动
中国移动信息技术有限公司的研发专家严俊,带来了题为《中国移动磐基 PaaS 平台》的主题演讲。在演讲中,严老师提出了“用弹性化解意外”的理念,并介绍了磐基平台稳定性实践中的四个关键意识:生产意识、安全意识、忧患意识和运营意识。
平安银行
平安银行总行云计算平台团队的技术测试专家王华,他分享了题为《平安银行的混沌工程实践》的演讲,详细介绍了平安银行在混沌工程建设方面如何使用多样的真实世界事件进行验证,如何在生产环境中运行实验以及最小化爆炸半径等。
观测未来
上海观测未来信息技术有限公司的技术生态 VP 吴亚昆带来主题演讲《浅谈软件工程全生命周期视角下的可观测性》,阐述了如何通过开发可观测、测试可观测、运维可观测和业务可观测四个方面建设全生命周期的数字化平台。
SRE 社区
中国 SRE 社区发起人刘峰分享了《SRE 的新发展和可观测性》,刘老师详细介绍了 SRE 如何通过满足客户期望的可靠服务来交付业务价值。
圆桌会议
圆桌会议由华为云混沌工程专家崔成主持,腾讯云售后技术顾问周永飞、天翼云高级运维专家尹磊、深信服可靠性专家汤洪亮和广东移动云资源池运维专家黎传琛共同参与。圆桌探讨了云时代云服务和云商应用的稳定性挑战,混沌工程对系统稳定性的贡献,可观测性与混沌工程的联合应用价值,以及业界对服务韧性工程(SRE)的看法。专家们的讨论非常热烈,提出了许多关于稳定性保障建设和行业应用的建议和意见,对与会者和观众们产生了深刻的启发。
参会的各位专家深度探讨了系统稳定性保障的理论内涵和重要价值,挖掘了行业内系统稳定性保障痛点,本次沙龙在热烈的技术讨论中圆满结束。中国信通院目前正在推进一系列系统稳定性保障领域标准研讨及产品评估,引导行业构建稳定安全的运行生态。我们欢迎更多的业界同仁和专家加入,共同汇聚行业智慧、知识和技术,探索更完善的“稳保”标准和更先进的技术实践。
相关工作请联系:
中国信通院 云大所 云计算部 王老师
wanghaiqing@caict.ac.cn,18813097160(微信同号)
评论