QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

百度技术沙龙第 2 期回顾:分布式与服务扩展(含演示文档下载)

  • 2010-05-19
  • 本文字数:1634 字

    阅读完需:约 5 分钟

在百度技术沙龙第 2 期(5 月 15 日)的活动上,我们邀请到了百度分布式高级工程师马如悦以及 FreeWheel 的核心系统技术总监王迪分别分享了关于分布式以及服务扩展两个话题,本文将对他们的演讲内容进行一下简单的总结,并为大家提供了演示文档的下载

为 Hadoop 的发展贡献自己的力量

在马如悦的演讲中,他主要介绍了百度的大规模数据存储、数据分析以及数据索引,主要包括以下内容点:

  • 大规模数据存储
    • Lustre 和 HDFS
    • 系统结构
    • HDFS 优势、不足
  • 大规模数据分析
    • MPI 和 MapReduce
    • MapReduce 概念模型、实现模型
    • MapReduce-Hadoop 实现
  • 大规模数据索引
    • MySQL 和 HBase 对比
    • HBase 详解
  • 在以上三方面百度遇到的问题、对策和原则

其中,马如悦提到,百度现在要处理的数据量非常庞大:存储 20PB+ 数据,每日新增数据 10TB+,每天处理的数据 1PB+,每天提交 10K+ 次作业。现在使用的文件系统是 HDFS,数据存储是 HBase,有超过 2K 台服务器节点,每个节点为 2*4 core。现在遇到的一个棘手问题便是 namenode 的瓶颈问题:因为要存储大量的(小)文件,使 namenode 的压力非常大,他们刚刚采购了 48GB 的内存,但是这 48GB 的内存,预计只能坚持到今年年底,到时候,可能会采购 96GB 的内存来紧急应对这个问题。所以百度在 namenode 的分布式方面,进行了很多研究。马如悦建议大家:

如果对这方面感兴趣的话,可以参考 Linux 2.6.34 中的 Ceph 文件系统,它就是一个基于 PB 规模的分布式文件系统。

最后,马如悦提到了百度目前正在重点研究 / 解决的几个问题 / 方向,他建议如果大家想对 Hadoop 做出一些成绩的话,这几个方向也是现在的热点:

  • HDFS namenode 的分布式改进
  • HDFS datanode 的读写异步化
  • MapReduce 的 jobtracker 的分布式改进
  • MapReduce 的新作业和任务调度器
  • MapReduce 的 Hadoop C++ 扩展框架

有读者对 Hadoop C++ 的扩展非常感兴趣,马如悦对此阐述了一下百度 Hadoop 的使用方式:

我们会定期在 Hadoop 的官方版本上找到一个稳定版本,然后进行自定义开发。过一段时间,当我们发现官方的版本如果增加了很多新增加的功能,比我们好很多,我们再开一个新的分支,把我们的功能移上去。我们的工程师在开发 Hadoop 的 C++ 扩展,我们大概是在 0.19 版分出来的,至今我们发现 chunk 版本仍然跑不过百度自己的版本,所以我们不会去做移植。HCE 在我们的版本上开发的,所以如果转移到 chunk 上,会有些难度,需要做一些调整,这会花费一些时间。上周我们工程师刚完成了一个版本,马上就可以为大家贡献出一个链接去试用。

以数据驱动为中心

王迪是 FreeWheel 核心系统的技术总监,从 07 年 FreeWheel 创立起,他全程参与到其广告核心系统的架构设计,也见证了 FreeWheel 从最初的的只有 20 台广告服务器、日均几十万的访问量、不到 1G/ 天的日志量,发展到现在拥有 60 台广告服务器、日均广告请求 5000 万次、日志处理服务器 8 台、日均 4 小时处理日志 200G 这么一个规模。3 年之间,流量增长 20 倍。他主要谈到了以下的一些经验和原则:

  • 应用服务扩展
    • 无状态应用服务
    • 复制与多层次 Cache
  • 数据仓库扩展
    • De-normalization/Pivot
    • Roll up/Data Availability
    • Benchmarking 与查询优化
    • Split-Loading/Sharding
  • 运营原则
    • 50% 运行负载上限 & N+1 Data Center
    • 监控和响应
    • 多阶段部署

很多具体的实践方法,都是针对他们具体的商业模式以及实际工作中摸索出来的,它不一定是“最好”的,但却是最适合的,比如对系统的负载当达到 50% 的时候,就是一个优化和扩容的信号了;再比如,以自动化回归测试为核心,但并未使用 TDD 单元测试,等等等等。

在提问环节,有读者对如何在回归测试中组织测试用例很感兴趣,王迪解释到:

比如我们有 700 个测试用例,需要 QA 做一些数据,可以用 SQL 文件的方式存在本地,然后把请求和预期也同样以文件的方式存在本地,然后在框架运行的时候,把它们载入到数据库当中,然后再服务结束后,再从数据库中取出来。

演讲资料下载

本次百度技术沙龙的演讲资料现在已经可以下载

相关内容

百度技术沙龙(第 1 期)活动总结演讲资料下载

2010-05-19 03:517448

评论

发布
暂无评论
发现更多内容

整理混乱的头文件,我用include what you use

华为云开发者联盟

c++ 开发 C语言 技能

在线文本行固定长度填充工具

入门小站

工具

CANN算子:利用迭代器高效实现Tensor数据切割分块处理

华为云开发者联盟

人工智能 算子 迭代器

解密函数计算异步任务能力之「任务的状态及生命周期管理」

阿里巴巴云原生

阿里云 Serverless 云原生 函数计算

多模输入事件分发机制详解

OpenHarmony开发者

Open Harmony

赋能数字经济 福昕软件出席金砖国家可持续发展高层论坛

联营汇聚

DevEco Device Tool 3.0 Release带来5大能力升级,让智能设备开发更高效

HarmonyOS开发者

HarmonyOS

智洋创新与华为签署合作协议,共同推进昇腾AI产业持续发展

极客天地

HUAWEI nova 10系列发布 华为应用市场筑牢应用安全防火墙

最新动态

能源势动:电力行业的碳中和该如何实现?

脑极体

linux实战清理挖矿病毒kthreaddi

入门小站

Linux

联想首次详解绿色智城数字孪生平台 破解城市双碳升级难点

科技大数据

应用实践 | 蜀海供应链基于 Apache Doris 的数据中台建设

SelectDB

数据库 数据中台 Apaache Doris

上线首月,这家露营地游客好评率高达99.9%!他是怎么做到的?

天天预约

小程序 SaaS 线上预约 预约工具 露营

使用 BlocConsumer 同时构建响应式组件和监听状态

岛上码农

flutter ios 安卓 移动端开发 7月月更

一文掌握数仓中auto analyze的使用

华为云开发者联盟

数据库 sql 后端 analyze

“只跑一趟”,小区装维任务主动推荐探索

鲸品堂

运维

华为nova 10系列支持应用安全检测功能 筑牢手机安全防火墙

科技汇

扩展你的KUBECTL功能

mengzyou

Kubernetes DevOps kubectl krew

湘江鲲鹏加入昇腾万里伙伴计划,与华为续写合作新篇章

极客天地

服务线上治理

阿泽🧸

微服务 7月月更

在线SQL转Excel(xls/xlsx)工具

入门小站

工具

使用 MyBatis 操作 Nebula Graph 的实践

NebulaGraph

mybatis 图数据库 Nebula Graph

基于Netty,徒手撸IM(一):IM系统设计篇

JackJiang

网络编程 Netty 即时通讯 im开发

可视化任务编排&拖拉拽 | Scaleph 基于 Apache SeaTunnel的数据集成

Apache SeaTunnel

数据同步 数据集成 可视化开发 数据集成平台 拖拉拽

广电五舟与华为签署合作协议,共同推进昇腾AI产业持续发展

极客天地

python小知识-python泛函数

AIWeker

Python python小知识 7月月更

实战模拟│JWT 登录认证

经验分享 JWT 开发语言 7月月更 跨域认证

托管式服务网络:云原生时代的应用体系架构进化

阿里巴巴云原生

阿里云 云原生 服务网格

玩转gRPC—深入概念与原理

闫同学

gRPC 网络协议 后端开发

百度技术沙龙第2期回顾:分布式与服务扩展(含演示文档下载)_架构_刘申_InfoQ精选文章