写点什么

【QCon 上海 2015】公有云服务与基础设施建设专场重点回顾

  • 2015-10-21
  • 本文字数:2249 字

    阅读完需:约 7 分钟

QCon 上海 2015全球软件开发大会 10 月 16 日的 Solution Track 专场以“公有云服务与基础设施建设”为主题,主要厂商包括:亚马逊、SpeedyCloud、微软中国、灵雀云、青云 QingCloud、UnitedStack、腾讯和七牛。各厂商在此充分展示了各自在行业里的领先位置,不管是到现场聆听的还是没能去现场的,都可以再来温故一遍技术美文!

获取互联网数据技术实践与云端爬虫养成

关于信息获取,通俗点说就是如何在互联网时代写一个自己的网络爬虫。亚马逊 AWS 首席云计算技术顾问费良宏老师讲的是在 Web 上如何通过搜索引擎或浏览器来获得精确数据,又有哪些问题需要解决和回避?我们为什么要通过 Web 获取数据,其实主要是因为这不同于搜索引擎,网络爬虫是可以从特定站点获取精确数据,而且是计算机可以处理的结构化数据。

写一个完整的网络爬虫之前,选择什么样的框架比较好呢?现在有很多开源框架, Scrapy 就是伦敦一家公司的项目,这是一个非常棒的框架,发展历史非常久, Scrapy 有一个核心引擎,来调度相关的处理,这个引擎包括重要的部件,它的拓展性是 Middiewares 决定的,支持压缩等等。

除此之外遇到的麻烦就是如何解决 IP 地址的问题,费良宏给出的推荐是实现匿名通信的自由软件 Tor(The Onion Router,洋葱路由器),这是第二代洋葱路由的一种实现,用户通过 Tor 可以在因特网上进行匿名交流,专门防范流量过滤、嗅探分析,可以匿名进行 TCP 传输,加密信息在路由器间层层传递。通过 Scrapy-Haproxy-Polipo-Tor 这样的方式将 Tor 与 Scrapy 结合起来即能更好的处理传输问题。但是 Tor 也并不是终极解决方案,因为 Tor 也有很多局限:网络延迟大、稳定性能无法保障、Tor 控制协议需要二次开发、屏蔽 Tor 的技术风险始终存在。

最后,费老师给出的分布式爬虫解决方案总结:运行环境 AWS EC2、多 IP 环境 AWS Elactics IP、爬虫框架 Scrapy、开发语言 Python 2.7、数据列队 AWS Elactic Cache、支持 Ajax/Javascript、中文分词、数据流(Strem)处理。

深度解析容器云平台趋势,架构与实践

灵雀云 CTO 陈恺目前是微软的云架构师,主要负责云平台的操作系统,他主要是介绍容器云平台:首先是容器在云里的应用方式,其次就是从云平台角度来看如何为实现容器化的交互模式。最后部分是分享搭建灵雀云的架构细节。

容器在云里该怎么用?陈恺说,容器和云计算都是为应用而生,以电商类的应用为例,其下有常见的三层架构,表示层、业务逻辑层和数据访问层,业务逻辑层还可以划分不同的逻辑的组建和模块。然后这个应用是使用一个应用之外的数据库的服务。这其中的 Docker 可以分两个来看,一个是动态的容器是一种轻量级的虚拟化的技术,另外是静态镜像是一个交付的标准,最大的贡献它形成了一个软件的集装箱,它的好处是开发者继续使用这个 IS 平台的功能,前端的负载均衡和后端的数据库,它产生的风险也很低,在 Docker 里的应用不需要做改动。

灵雀云架构与实践,灵雀云是通过和国内外一些比较常用的代码托管服务的对接,开发者只需要做一个代码的提交,就可以通过一些机制自动的进行镜像构建。镜像生成之后就保存在镜像中心,按照生产环境一模一样的地方部署到测试环节,然后进行一个滚动式的策略确保它的准确性。部署之后它会全部屏蔽云主机,帮助开发者实现基础设施方面的免运维。灵雀云的核心在于它的托管平台,接下来聚焦到这个平台架构上,这是灵雀云单个集群的架构,在这个集群当中,最主要的最关键核心组,就是利用我们的一个网络组建对负载均衡器做配置,为容器在这个环境下提供网络,它会对有状态的服务来做提供。

灵雀云亦被称之为云上云,这是我们通过的 CloudManger 实现的,它管理这个应用的目标状态,另外还会做一个跨集群跨区和跨云的调度,最后把每个应用都部署到 Cloud 上面。

基础设施建设实战:云之大数据平台架构设计

大数据解决方案最大、最重要的决定是平台的选择,Hadoop、Spark、HBase 等等,一旦选择错了平台,那带来的损失是巨大的。所以一开始做解决方案的时候就明白什么样的平台才可以满足你的需求是很重要的。至于怎么选择平台,青云 QingCloud 系统工程师及大数据平台负责人周小四认为要从实际需求出发(要考虑实时处理、离线处理、结构化数据、非结构化数据、CRUD、事务性、数量大小等等),平台能力(能满足实际需求的平台才是好平台)和不确定性(规模大小)来进行选择。

数据从它的生命周期来说,分为数据采集、数据传输、数据存储和数据计算几个阶段。存储的话就是 IaaS,然后就是中间计算,其中的技术包括 Spark、SparkSQL 还有 Hive。Hadoop 框架在云上系统架构上默认 3 个副本因子,事实上根本不需要 3 个,主要原因是系统架构需要传输功能,而只能用 Hadoop 提供的这个功能加进去:Kafka、分布式、可分区、多副本、高吞吐量、低延迟消息。

其实在整个云数据平台架构设计上的挑战还是很多的,主要体现在物理世界上出现的一些稳定性、性能和迁移的一些问题。数据格式的选择需要很慎重,数据格式选择错误的话不但性能会下降,空间和使用率也会下降,怎么选择数据格式呢,就是把握几点原则,第一是不是条块分割的,意思就是说你每一块是不是有意义;第二就是是不是可压缩的。因此在选择格式的时候一定要知道这个原则,选择你想用的格式,最大化的节省出平台里的空间和资源。

通过本次“公有云服务与基础设施建设”专场的分享,让与会者更加了解公有云和大数据的最新状态和一些技术难点,演讲内容得到了与会者的好评,在最后的 Q&A 环节里,讲师精彩细心的回复为提问者答疑解惑,这也充分体现了 QCon 大会的主旨和目的。

2015-10-21 04:571272
用户头像

发布了 181 篇内容, 共 96.9 次阅读, 收获喜欢 207 次。

关注

评论

发布
暂无评论
发现更多内容

【Go电商实战04】为什么GoFrame不支持migrate功能?我还特意去问了框架作者

王中阳Go

golang 高效工作 学习方法 程序员 11月月更

秒云加入OpenCloudOS操作系统开源社区,携手打造更智能、更可控、更可信的云原生环境

MIAOYUN

开源社区 opencloudOS

阿里云弹性计算总经理张献涛:智能化、高效能、新交互将重塑互联网

云布道师

弹性计算 云栖大会

工信部电子五所李冬:在龙蜥社区的一站式自动化测试平台的探索和实践|2022云栖龙蜥实录

OpenAnolis小助手

开源 操作系统 自动化测试 龙蜥社区 2022云栖大会

深入浅出学习透析Nginx服务器的基本原理和配置指南「初级实践篇 」

洛神灬殇

nginx 正向代理与反向代理 11月日更 nginx 开源版 开发指南

从HelloWorld看Java与Kotlin

子不语Any

kotlin Andriod 11月月更

泛型由入门到精通(2)

好程序员IT教育

Java 泛型

分布式事务详解、理论分析、及强一致性(2PC、3PC)剖析

C++后台开发

数据库 分布式 后端开发 Linux服务器开发 C++开发

EMI 滤波电路是由哪些元件组成的,一文看懂!

元器件秋姐

元器件采购 元器件电商 EMI滤波电路 滤波电路 元器件知识

精益创业者的用户体验设计

产品海豚湾

产品经理 产品设计 精益思想 用户体验 11月月更

数据预处理和特征工程-特征选择-Embedded嵌入法

烧灯续昼2002

Python 机器学习 算法 sklearn 11月月更

九科信息受邀参加中国总会计师协会财务数智化转型研讨会

九科Ninetech

【愚公系列】2022年11月 微信小程序-app.json配置属性之Worker

愚公搬代码

11月月更

从0开始,让你的Spring Boot项目跑在Linux服务器

闫同学

spring Linux 服务器 11月月更

浅析云原生

鲸品堂

数字化转型有可能让所有人满意吗?

优秀

数字化转型

湖仓一体架构下的数据研发及管理

数造万象

4K60帧!RayLink远程控制软件如何帮助设计师远程办公?

RayLink远程工具

远程控制软件 远程办公软件 远控软件 远程桌面连接 RayLink

Thymeleaf入门教程

Studying_swz

前端 thymeleaf 11月月更

基础逻辑门

芯动大师

Verilog 11月月更 Xilinx

构建高质量的持续交付体系

老张

软件工程 持续交付

Kotlin变量声明和类型推断

子不语Any

kotlin Andriod 11月月更

AI音乐创作,让每一个人都成为音乐家

HarmonyOS SDK

音频 HMS Core

谈谈我对服务网格的理解

阿里巴巴云原生

阿里云 云原生 服务网格

JVM Sandbox入门教程与原理浅谈

Zhendong

Java JVM

甩掉容量规划炸弹:用 AHPA 实现 Kubernetes 智能弹性伸缩

阿里巴巴云原生

阿里云 Kubernetes 云原生 AHPA

泛型由入门到精通(3)

好程序员IT教育

Java 泛型

Java Web(九)会话跟踪技术

浅辄

javaWeb session Cookie 11月月更

mysql的高可用方案以及优缺点

想要飞的猪

浅谈MVC、MVP、MVVM框架模式

闫同学

mvc MVP MVVM 11月月更 框架模式

MySQL事务的隔离级别以及脏读、幻读和不可重复读

闫同学

MySQL 事务 11月月更

【QCon上海2015】公有云服务与基础设施建设专场重点回顾_DevOps & 平台工程_Xue Liang_InfoQ精选文章