在CNUTCon上海2018大会上,林天智讲师做了《七牛存储运维实践》主题演讲,主要内容如下。
演讲简介:
七牛原本的告警系统是通过 zabbix 来触发,然后有一个人工告警通知的团队来通知各个业务线告警,再由各自的运维团队处理告警。这个在规模小的时候没有问题,但是在机器规模变大的时候会遇到很多问题,告警数量爆增,信息流单项无法确认,缺乏历史记录等。需要针对这个来做改造,但是过程中会遇到大量告警如何迁移,如何保证不影响当前的正常工作等,中间运用到一些开源服务比如 prometheus,pushgateway,node_exporter 等,以及一些自己开发的系统。最终存储运维相关的故障减少 80%以上,以及不需要人工告警团队再继续通知。
资源利用以及集群复制。当前存储的部署是基于物理机部署,对于资源利用很不充分,也不利于集群的复制(私有云),会从这些角度讲如何从物理集群迁移到容器集群。
主要内容:
监控数据搜集;
告警收敛;
告警后续处理;
容器化方案。
听众受益:
灵活运用开源组件;
如何自动化的思路,避免无意义的工作;
容器化的思路。
讲师介绍:
林天智
七牛存储 &直播运维 负责人
在七牛曾经做过存储研发,转到数据处理,后面参与到直播调度相关的设计以及研发,再后来转到技术保障部作为存储 &直播运维的负责人,有 5 年的 golang 编程经验,对分布式有一定经验,对 k8s 有一定了解,运维方面有大规模运维改造的实践经验。
完整演讲 PPT 下载链接:
https://cnutcon.infoq.cn/2018/shanghai/#schedule
评论