写点什么

QCon 北京 2015:自动化运维专题前瞻

  • 2015-03-04
  • 本文字数:3509 字

    阅读完需:约 12 分钟

中国互联网行业经过十多年的蓬勃发展,到今天形成了从巨头到中小企业近百家上市公司,还有大量创业公司并存的繁荣景象,而运维领域经过十多年的发展,随着服务器和流量规模的快速攀升,在海量技术运营方面不断探索和突破,形成了很多可供参考的成熟海量运营案例和方法论;开源软件领域也从之前的偏重生产系统的软件如 MySQL、Apache 等发展到越来越偏重综合运维管理的解 决方案,如 Docker 甚至开源云平台等。

即将于 4 月 23 日~25 日在北京国际会议中心举行的 QCon 北京 2015 大会,相应设置了“自动化运维”专题。本专题试图在前面介绍的这几个方面,为大家找一些业内成熟案例和探索,供大家学习和参考。

我们邀请了腾讯社交网络运营部助理总经理赵建春担任本专题的出品人。赵建春,腾讯 T4 专家工程师,技术运营通道顾问。04 年大学毕业后加入腾讯,先后参与过交友、音乐、贺卡、QQ 空间等业务的开发。06 年后和团队一起专注于技术运维,负责腾讯社交网络事业群社区类 Web 业务的运维和建设工作至今。经历了业务规模从数十台设备到数万台设备的快速发展历程。在此过程中,他在运维环境标准化、业务 Set 化、运维自动化及多地分布式部署、内部云建设等方面积累了丰富的实战经验。

目前本专题的讲师已经全部确定,我们邀请了来自业界领先的互联网公司的 7 位运维专家,为大家分享他们的宝贵经验。到底有哪些专家,他们会分享什么样的话题呢,我们先睹为快。

“高效运维最佳实践”是 InfoQ 在 2015 年推出的精品专栏,由触控科技运维总监萧田国撰写,InfoQ 总编辑崔康策划。目前已经发布两篇文章:高效运维最佳实践(01):七字诀,不再憋屈的运维高效运维最佳实践(02):员工的四大误区及解决之道。在 QCon 上,萧田国将来现场分享《专业运维的最佳实践探索》:

我们那么的努力,为什么业务部门对运维的评价往往没预期的好?运维人员应该怎么做,才能获得更多认可?运维人员更愿意关注个人技术能力的提升,及认为给公司带来了多大的价值,往往忽略了怎样更专业的做事情,以达到甚至超越公司和业务部门的期望,摘取个人和团队的”组织成果“。

本主题试图从业务部门的角度观察和审视运维,基于演讲嘉宾多年一线运维经验及管理学方法,侧重解决三个问题:即什么是专业运维(公司需要怎样的运维),为什么难以做到,及怎样专业化运维。希望引发大家思考,并有所裨益。

Docker 问世两年左右,就引爆了社区,InfoQ 也相应设置了 Docker 专栏,为 Docker 的学习和推广共享着自己的力量。Docker 在企业界的应用状况、部署规模到底如何呢?我们邀请了腾讯数据平台部高级工程师罗韩梅,她将分享 Docker 在腾讯的应用状况。她的演讲是《Gaia——万台规模的 Docker 应用实战》:

作为底层的资源调度平台,Gaia(盖娅)能够让应用开发者像使用一台超级计算机一样使用整个集群,极大地简化了资源管理逻辑。Gaia 提供高并发任务调度和资源管理,实现集群共享,具有高度可伸缩性和可靠性,能够支持 MR 等离线业务,甚至是实时计算、在线 service 业务。通过一系列的优化,Gaia 可以支持到单 cluster 万台规模,毫秒级的作业下发效率以及更加完善的资源管理,同时,我们引入了弹性内存管理,增加了网络和磁盘带宽管理。

Docker 轻量、可移植、跨平台的特性将彻底改变程序的交付方式,并充分释放了虚拟化的威力,大有掀起一场容器革命之势。云计算、大数据经常意味着需要调动数据中心大量的资源,如何能够快速的匹配合适资源,需要一个聪明的“大脑”——Gaia。通过 Docker on Gaia 实现的 Docker 云,将会让 Docker 的能量发挥到极致。

面对线上故障,我们是疲于救火,还是尽量防患未然,曲突徙薪?搜狗高级经理房秀丽将分享《从“救火”走向“防火”》:

是否在线上发生故障时,开发和运维人员忙成一团?是否觉得已经对线上故障很重视了,但是线上故障依然屡次发生?是否每天不是在“救火”就是在“救火”路上?是否团队的成就感已被逐渐的抹杀?实践证明,如果仅仅是遇到故障才去解决的“亡羊补牢”式的工作方式,就会使“救火”成为常态。因此,我们需要思考应该如何使运维的状态从“救火”变成“防火”,做到防患于未然。

本次主题分享的是针对搜狗商业平台产品迭代速度不断加快、机群规模持续扩大、应用架构日趋复杂的演变过程中出现的各种运维问题,介绍我们在发布管理、监控管理、故障管理等方面进行的探索,以及如何通过搜狗商业自动化平台和运维体系实现从“救火”逐渐到“防火”的转变。希望能对大家有启发或借鉴作用。

业务场景复杂多变,系统平台纷繁复杂,运维团队应该如何应对?我们邀请了赶集网运维平台负责人、自动化运维专家崔华,分享《赶集运维之九天探月》:

面对乱象丛生的开发模式,面对复杂多变的业务场景,面对众 多纷杂的系统平台,赶集运维挑战重重;从无到有,从小到大,由分散到整合,由无序到流程。。。还有我们正在由工具走向平台化的今天;我们经历了重构甚至推翻重搞,经历了数不清的从黎明到黑暗, 又从黑暗到黎明, 经历了用户的无数吐槽与点赞,经历了太多太多。如何目睹起飞的过程? 如何清晰地看到那一轮明月?希望能够通过这些“经历”来和大家一起分享“赶集阿波罗平台”的前身今世,以及我们规划建造这个“飞船”时 遇到的坑和得到的赞。

在云计算时代,数据库的运维有何挑战呢?我们听听阿里巴巴高级数据库专家陈长城(花名天羽)的分享——《云计算时代的数据库运维体系》:

通过对比企业数据库运维模式和云数据库(以下简称 RDS)的运维区别,说明在云计算时代,运维变成了一种服务,作为公共计算服务的一部分服务于广大企业。这时候云数据库运维面临的机会和挑战。

1、所有企业和个人,对云数据库的 SLA 要求都是一样高的。在以前我们负责大规模产品线时,宕一台只影响 1/16 或更小,但在云数据库,对一个用户来讲就宕机 1 台就是 100% 不可用。

2、当运维变成一种服务,用户会担心数据是否安全,云平台的运维模式是否可信。

3、用户对 RDS 平时不希望参与维护,但出问题他会找你,这就要求我们比用户更早发现问题,甚至能提前预判和规避问题。

针对这些痛点,我会介绍 RDS 产品和运维平台杜康在阿里云计算运维实践中的解决方案,产品在用户和运维界面上的设计,杜康在全链路监控、可信运维模式、智能运维和服务化的进展。

运维体系建设首先是为了稳定性,最终追求的是用户体验。为了提高用户使用 RDS 的体验,我们开发了一些独有的功能,我将重点介绍 CloudDBA 的设计和实践,CloudDBA 的想法源于我们一直希望把 DBA 的经验产品化,今天阿里集团有一大批经验丰富的 DBA,但在云计算的用户是没有的,我们希望将阿里 DBA 丰富的线上经验输出给广大的 RDS 用户。CloudDBA 是阿里基于多年数据库运维经验开发的自动化工具,把 DBA 工程师的一些基础工作如 SQL 优化、表结构优化、空间使用优化等通过系统给用户专业的建议,由用户决策并一键执行,将为阿里云数据库服务(RDS)的用户带来全新的便利体验。其中 CloudDBA 诊断引擎项目,专业 DBA 自动 SQL 优化服务已经通过云数据库管家在 RDS 控制台推出,我也将分享产品设计和推出过程的一些感想。

最后简单介绍下 RDS 对外开放的 API,运维服务是可以由第 3 方提供的,行业云用户需要更多深入定制的运维服务。

刚刚过去的除夕之夜,对微博平台也是一次大考。我们邀请到了新浪微博平台运维架构师王关胜,他将分享《新浪微博平台运维自动化之路》:

11 年初,新浪微博进入快速发展期,同时也开启平台化的进程,服务器设备,及人力成本大量增加。业务的发展,让我们意识到运维自动化的必要。于是开启探索之路,本次主题就其中关键部分进行分享。

除了线上系统的自动化运维,底层的数据中心如何通过自动化运维实现支撑,也是一个有意义的话题。我们邀请了百度系统部高级项目经理陆川,他将分享《百度数据中心自动化平台演进过程》:

一、主题摘要:

1. 背景(数据中心自动化的定义(机器运维、网络运维,不包含业务运维,如 apache、mysql),百度数据中心规模发展(几千台——数十万台))

2. 百度数据中心自动化运营平台发展历程(流程系统 -> 半自动 -> 全自动)

3. 百度数据中心自动化运营平台架构设计(资源管理平台、自动化平台、配置管理数据、监控平台、数据统计分析平台)

4. 百度数据中心自动化运营平台未来发展(简化、开放、大数据分析)

二、听众受益:

1. 了解超大型互联网公司数据中心自动化运营平台的发展历程,有助于中大型互联网公司平台研发团队开拓思路,少走弯路;

2. 了解大规模数据中心自动化运营平台、存在的问题和解决方案;

3. 了解数据中心自动化运营平台如何为公司、业务创造价值;

4. 了解数据中心自动化运营平台未来发展的趋势。

更多精彩,尽在现场。现在报名,可享 9 折优惠。

2015-03-04 20:293168
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 136.3 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

OCR技术用于在线身份认证的运营效果分析

OCR

FinClip 的 2021 与 2022

王字 Wannz

finclip 小程序容器 小程序开发 小程序管理平台

IT人的笔记本——全面了解 Jupyter

dongge

jupyterlab

圆桌会议:如何避免踩到移动研发中,效能提升那些坑

王字 Wannz

移动开发 迭代

远程办公团队如何沟通?

王字 Wannz

远程办公 wrh 居家办公 线下办公 soho

小程序框架与平台编译对比

王字 Wannz

小程序 百度智能小程序 头条小程序 finclip 小程序框架

手把手教你使用HarmonyOS本地模拟器

HarmonyOS开发者

HarmonyOS DevEco Studio

低代码OR零代码,企业如何选择自身所需的软件开发平台?

BeeWorks

开源商业模式促进金融业科技生态的发展

王字 Wannz

小程序 开源 IT 金融

有奖调查| 2022 Apache Pulsar 怎么过,你们说了算

Apache Pulsar

开源 云原生 中间件 Apache Pulsar Apache Pulsar 社区

我与音视频的故事 | 社区征文

Changing Lin

音视频

Linux之at命令

入门小站

Linux

Camtasia卡点相册视频教程

淋雨

Camtasia 录屏软件

FinClip 与 uniapp:轻应用平台与前端开发框架

王字 Wannz

小程序 uniapp 移动开发 finclip

恒源云(GPUSHARE)_替代MLM的预训练任务,真的超简单吗?

恒源云

人工智能 自然语言处理 深度学习

【连接平台」企业告警信息通过机器人同步至钉钉群

钉钉开发者

连接器 钉钉应用开发 钉群

2022年低代码的变化与趋势

BeeWorks

Java如何实现消费数据隔离?

CRMEB

大模型应用新范式:统一特征表示优化(UFO)

百度开发者中心

在线YAML转Properties工具

入门小站

工具

MySQL 是如何实现RC事务隔离级别的

华为云开发者联盟

MySQL ReadView 事务隔离 RC事务隔离 Read Committed

延迟任务场景,该如何提高吞吐量和时效性

华为云开发者联盟

redis 延迟任务 低延迟 Redis 消费队列

利用鸿蒙JavaUI 框架的 WebView 加载本地冰墩墩网页

宇宙之一粟

鸿蒙开发 2月月更

FinClip 与 mPaaS:轻应用平台与移动应用开发平台

王字 Wannz

小程序 移动开发 mPaaS finclip 小程序容器

架构实战营:模块七作业

Geek_93ffb0

「架构实战营」

2021盘点 | 云主机年度榜单出炉,Top5花落谁家?

博睿数据

各项结果排名第一!百度内容技术架构团队在国际向量检索大赛BigANN中斩获佳绩

百度Geek说

百度 内容 前端 后端

分布式进阶(二十三):Nginx 服务器应用详解

No Silver Bullet

nginx https 正向代理与反向代理 SSL证书 2月月更

【网络安全】一款针对Flutter的逆向工程分析工具

H

网络安全 逆向分析

OpenHarmony移植案例:如何适配服务启动引导部件bootstrap_lite

华为云开发者联盟

开发板 OpenHarmony startup子系统 bootstrap_lite

阿里云EMAS 1月产品动态

移动研发平台EMAS

阿里云 程序人生 移动开发 #EMAS

QCon北京2015:自动化运维专题前瞻_数据库_臧秀涛_InfoQ精选文章