写点什么

ArchSummit 北京 2014“云平台技术全景剖析”专题精彩回顾

  • 2014-12-19
  • 本文字数:2314 字

    阅读完需:约 8 分钟

12 月 19 日,ArchSummit 北京 2014 大会在北京国际会议中心拉开帷幕。

InfoQ 和阿里云合作推出了“云平台技术全景剖析”专场,有幸邀请到来自阿里云的黄湘龙、张献涛、朱照远、占超群等 4 位技术大咖,跟到场的技术人员分享了云架构背后的核心技术,云产品的发展历程和思考等干货,现场气氛非常火爆。很多听众积极提问,跟到场专家请教技术问题;有些听众甚至席地而坐或是站着听完了全程。以下是该专题精彩内容回顾。

黄湘龙(花名龙觉):云计算架构的实战案例

黄湘龙,在阿里云负责弹性计算,资深专家及总监,博士。在亚马逊工作多年,是 DynamoDB 产品的主要作者和创始团队成员。在阿里云主要负责弹性计算控制系统的研发。主持控制系统重构、优化,并参与了 VPC、IO/CPU 性能优化等项目的研发。

他首先介绍了自己负责的 ECS 控制系统所做的具体工作。作为 ECS 系统平台,从 API 入口,到物理集群,比如用户创建一个虚拟机或者销毁一个虚拟机,挂载磁盘,卸载磁盘,这些操作都会经过控制系统,控制系统一方面实现这些 API,在后台做资源调度和自动运维的工作。API 的并发有时会非常高,像大促活动这样的场景对控制系统要求非常高,尤其秒杀的情况下,有可能进来成千上万台虚拟机创建请求,所以对控制系统的并发度以及响应速度要求也极高。

之后他根据自己在云产品方面的多年的经验,分享了几个实战案例。

第一个案例是弹性伸缩。如果计算节点是没有状态的,做完一件事就直接返回结果,那增加或减少机器都很自然。但是大部分实际场景都是有状态的,如果有状态又做弹性伸缩的话,就需要做到同一个任务作不同的节点之间任意的切换,所以实际中会对状态多份复制,这样发生硬件故障也可以做到容错容灾。

第二个案例是服务间依赖。被依赖的服务有可能成为瓶颈。一种解决方案是内嵌式服务,把需要的服务实现到计算节点当中。其优点是性能好,运维简单。缺点是原来的计算节点又增加了一种应用,隔离性没那么好,而且自己实现也增加了对工程师的挑战。所以建议强依赖最好在内部实现。弱依赖则不必如此。

第三个案例是数据一致性。大规模下发流程,数据不一致是常态,所以要把它当做常用代码路径对待。现在的想法是将数据随机下发到几台机器,其他节点可以学习。

最后一个案例是拉取还是推送。拉取可以减少网络上的传输流量,还可以减少队列服务。

张献涛(花名旭卿):阿里云虚拟化技术研发之路

张献涛,虚拟化领域的资深人士,KVM/IA64 项目的 Maintainer。目前是阿里云资深专家,担任虚拟化技术总监,主导阿里云下一代虚拟化架构的设计与研发工作。

ECS 是阿里云产品体系中最基础的计算服务,通常用作应用程序的运行环境,其最重要的特点是弹性。底层虚拟化基于成熟的开源软件 Xen,为优化性能和稳定性,对 Xen 核心代码改动超过 100 项。为增加系统多样性,基于 KVM 的其他 Hypervisor 方案也在研。热迁移技术,底层基于 Xen 热迁移研发,改动超过 20 项。

他详细介绍了阿里云 Hotfix 的原理,基于函数动态替换技术,新函数会以模块内函数的形式链接入内核,旧函数的第一个指令改成强制跳转指令指向新函数,在替换过程中需要暂停所有 CPU,切到一个内核线程并关闭本地中断,刷新指令缓存,重新让 CPU 恢复执行。

另外,Hypervisor Hotfix 也是重点介绍的内容。

关于下一代虚拟化架构,目前在研的是 KVM 方案。设计特点,所有组件都支持热升级,升级过程用户无感知,运维主动升级时不中断业务连续性。这些在近期都是阿里云研究的挑战与技术探索方向。

朱照远(花名叔度):阿里云 CDN 技术演进

朱照远,高级技术专家,阿里云核心系统部 Web 平台团队负责人。2009 年加入淘宝网,现负责阿里巴巴 Web 服务器、CDN 等系统的研发。他是开源 Web 服务器项目 Tengine 的发起人。

朱照远介绍了阿里云 CDN 的特点和优势,包括:第一,稳定,节点资源很丰富,全球现在有 260 多个节点,有 7Tbps 带宽处理能力,有自主研发的缓存、调度、安全、业务管理等系统。第二,在安全方面有安全保护模块,有 1.6Tbps 的 DDoS 防护能力,基于大数据分析,快速准确识别攻击,实时阻断。第三,自助化业务部署,不需要人工干预,可以通过 Open API 管理。第四,按量计费,这样更灵活,成本更低,用户可以选择按带宽还是按流量计费。

他还介绍了从淘宝 CDN 到阿里 CDN 再到阿里云 CDN 的发展历程,并分享了 CDN 系统的架构设计。开发团队对 Tengine 和 Swift 做了性能优化,像集群的大文件分片缓存功能,利用 SPDY 的多路复用技术,减少三路握手和慢启动的影响,减少对本地端口的占用等。除了应用层的软件,还对 TCP 协议栈进行了优化。

占超群(花名离哲):分析数据库 ADS 的产品化、服务化实践

占超群,高级技术专家,阿里巴巴集团数据平台部架构师,实时分析数据库云产品 ADS(Garuda) 创始人。

分析数据库的产品逐渐成长,然后对外提供服务,过程中也是血泪史,不停地优化,产品化,服务化,支持更多的用户,更好的用户接口,整个过程比较曲折。

占超群分享了 ADS 的架构,并介绍了成长过程中比较痛苦的地方,包括运行建模、双十一的挑战和元数据中遇到的痛点。

占超群还分享了服务化的痛点和思考。如果多租户,这意味着资源是隔离的,如果不能做到精细化极速的资源控制,当业务波峰时就会有超时、慢查询。第二点,分布式系统提供稳定延时 SLA,这个非常难,因为网络、机器会发生各种问题,在分布式环境出问题的概率很高。第三个,多集群。如果业务很多,有几十个集群怎么运维。第四点,热升级,因为现在做的高并发在线服务,不能挂个通告说停两个小时。第五个,低成本,云服务低成本也有很多难度,因为做给一个人用和做给一万个人,这中间的难度不是一个量级的。

演讲的幻灯片和视频我们会逐步放到 InfoQ 的网站上,敬请关注。

2014-12-19 20:071682
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 136.3 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

课程升级 | 极速构建知识体系,即学即用 Serverless

阿里巴巴云原生

阿里云 Serverless 云原生 活动 课程

Log4j2同步打印日志导致线程阻塞问题剖析

快看工程技术中心

Java 线程 log4j java反射 异常处理

音视频同步!RTCP 协议解析及代码实现

声网

音视频 协议 Wireshark 流媒体

阿里内部最新“SpringCloudAlibaba学习笔记”(全彩第三版)限时开源

Java 架构 面试 微服务 Alibaba

如何管理职场新人?

石云升

团队管理 管理 引航计划 内容合集 9月日更

2021金九银十,啃完这35个Java技术栈,冲刺百万年薪不是梦

Java 架构 面试 程序人生 编程语言

ThingMap一键城市2.0重新出发:快速生成三维城市

ThingJS数字孪生引擎

地图 物联网 可视化 数字孪生

@InjectMocks 使用

且听且吟

如何加速云原生数据应用?这个开源项目备受关注

阿里巴巴云原生

阿里云 开源 云原生 Fluid

阿里耗时三月整理的亿级流量百万并发手册,在上传在GitHub上意外获星90K+

Java 架构 面试 程序人生 编程语言

等保测评一次多少钱,收费标准是怎样的?

行云管家

网络安全 等保 等保测评 等保2.0

音视频编解码 --X264码率控制初探

Fenngton

音视频 ffmpeg 编码 码率控制 引航计划

国庆临近,字节后端开发3+4面,终于拿到秋招第一个offer

Java 架构 面试 后端 计算机

以技术驱动云上创新增长,阿里云计算峰会上海完美收官

互联网 存储 云服务 科技 计算

第5章-《Linux一学就会》- Linux基本操作和服务器硬件选购指南

学神来啦

Linux linux运维 linux学习 Linux教程

车载高速CAN(HighSpeed CAN)通信基本原理讲解

SOA开发者

我国智能汽车产业环境与政策导向

SOA开发者

金九银十面试如何得到面试官青睐?2021最新大厂Java面试真题合集(附权威答案)

Java 架构 面试 程序人生 编程语言

一文带你掌握工作流引擎flowable所有业务概念

小鲍侃java

后端 引航计划

垂直CRM,能否走到终局?

ToB行业头条

Prometheus 2.29.0 新特性

耳东@Erdong

release Prometheus 9月日更

使用 Chrome 调试 Vue3 的 TypeScript 源码

编程三昧

源码 Vue Vue 3 9月日更

阿里大佬熬了三月,总结出了这套分布式架构手册,在Github上疯传!

Java 架构 面试 程序人生 编程语言

如何撬动企业数字化转型?智能客服是关键支点

ToB行业头条

vivo全球商城-营销价格监控方案的探索

vivo互联网技术

后端 服务器 监控系统 营销数字化 亿级架构设计

阿里P8连肝三月,终于整理出的完美Java面试宝典,上传到Git上目前star数达到30K+

Java 架构 面试 程序人生 编程语言

2022前端react高频面试题汇总

buchila11

React

剖析反序列化原理基本操作

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞分析

应用开发中的存储架构进化史——从起步到起飞

Java 编程 架构 面试 后端

智能汽车的定义是什么?

SOA开发者

浅谈加密基础设施

I

基础设施 信息安全 加密 密码学 加密基础设施

ArchSummit北京2014“云平台技术全景剖析”专题精彩回顾_服务革新_臧秀涛_InfoQ精选文章