QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

雅虎! 来自 Hadoop 峰会的最新更新

  • 2010-07-15
  • 本文字数:1557 字

    阅读完需:约 5 分钟

雅虎首席产品官 Blake Irving 吹响了 2010 Hadoop 峰会的呜呜祖啦 (2010 南非世界杯助威工具) 雅虎发表的主题演讲阐述了他们的使用规模,贡献的技术方向,以及他们如何应用这项技术的架构模式。

显而易见, Hadoop 受到越来越多的关注:今年的会议有 1000 人参加并且门票在会前 10 天就告售罄,人数较前年的 300,去年的 650 有大幅的增长。Java 之父,James Gosling 也参加了该会议。这次会议标志着 Hadoop 5 周年(大约)。Irving 指出世界上只有 5% 的数据是结构化的,而非结构化数据一直保持极大的增长,这些新产生的数据的特点是更多的瞬时性。他强调 Yahoo 使用 Hadoop 来分析每一个页面点击并优化内容的排名,每 7 分钟更新一次结果。他指出“我们相信 Hadoop 已经为主流企业的应用做好了准备”。

雅虎的云计算高级副总裁,Shelton Shugar 指出,雅虎每天为 1000 亿事件产生 120TB 数据输入,目前储存了 70PB, 而其最高存储容量是 170PB。雅虎每天处理 3PB 数据,每个月在 38000 台服务器上运行超过百万个任务。由于雅虎的 Hadoop 的使用范围不断扩大,他们已经需要为主流应用程序员作为准备,建立支持提供和更好的管理工具和数据安全。他指出,雅虎在生产环境中将 Hadoop 应用于各种产品:

  • 数据分析
  • 内容优化
  • 雅虎公司反垃圾邮件
  • 广告产品
  • 广告优化
  • 广告选择
  • 大数据处理和 ETL

雅虎还在其应用科研中大量使用 Hadoop,比如:

  • 用户兴趣预测
  • 广告库存预测
  • 搜索排名
  • 广告定位
  • 垃圾邮件过滤

Eric Baldeschwiele,雅虎 Hadoop 软件开发副总裁指出,在去年雅虎已经:

  • 把他们的集群从每个 2000 节点增加到 4000 个节点
  • 受惠于摩尔定律带来的 CPU 计算能力增加,每个节点的任务数翻了一倍
  • 现在有超过 80%的磁盘利用率,通常 50-60%的 CPU 使用率,并且数据使用的增长速度高于处理使用
  • 贡献了超过 70%的 Hadoop 补丁

他们在去年的重点是改善 Hadoop 的 map-reduce, 这包括:

  • 一个新的容量调度程序
  • 任务跟踪的稳定性和支持混合工作负载的健壮性
  • 增加资源的使用的限制:安全围栏 (safety rails)

现在他们的重点是开发 Hadoop 的分布式文件系统,HDFS:

  • 在他们的每一个集群节点的存储现在是 12TB。他们现正兴建一个 48PB 的集群 - 由于 Name 节点可伸缩性的限制,“这对 Hadoop 来说是颠覆性的 “
  • 提高内存,连接和缓冲区的使用,并提供度量的体系。
  • 把存储拆分成一组文件卷集(使用多个 HDFS 集群)
  • 在 Hadoop 的下一个主要版本将会发布跨 HDFS 实例的联合存储

Baldeschwieler 解释雅虎如何个性化他们的主页:

  • 实时服务系统使用 Apache 从数据库中读取从 user 到 interest 的映射
  • 每隔 5 分钟,他们使用生产环境中的 Hadoop 集群基于最新数据重新排列内容,并每 7 分钟更新结果
  • 每个星期,他们在 Hadoop 科研集群上重新计算他们关于类别的机器学习模式

雅虎 Mail 以类似的方式使用 Hadoop:

  • 在生产集群上频繁根据垃圾邮件模式为邮件计分
  • 每隔几个小时在科研集群上训练反垃圾邮件模型。
  • 该系统每天推动 50 亿次的邮件投递,覆盖了 4.5 亿个邮箱

因为 HDFS 有一个单点故障(Name 节点),这对高可用性生产系统来说是个风险。为了减轻该风险,雅虎将数据复制到多个群集,因此分布式文件系统的中断可以使用备份文件系统来弥补和解决。在雅虎的演讲中, 除了自己的 Pig 项目,他们表示正在使用 Hadoop 的 Hive 项目。

Baldeschwieler 宣布,雅虎已经发布了 Hadoop Security 的 Beta 测试版,它使用 Kerberos 进行身份验证,并允许在同一集群托管商业敏感数据。他们还发布了 Oozie ,一个 Hadoop 的工作流引擎,这已在雅虎成为事实上的 ETL 标准。它集成了 MapReduce,HDFS,Pig 和 Hadoop Security。

总体而言,雅虎展示了其在 Hadoop 技术的持续领导地位,与此同时他们感到高兴的是,领先的互联网公司和独立技术供应商纷纷加入到了这一生态系统当中来。

查看英文原文: Yahoo! Updates from Hadoop Summit 2010

2010-07-15 02:223420
用户头像

发布了 42 篇内容, 共 18.1 次阅读, 收获喜欢 5 次。

关注

评论

发布
暂无评论
发现更多内容

面试官:谈谈你对 IoC 和 AOP 的理解!

JavaGuide

Java spring aop ioc

深入探索 RUM 与全链路追踪:优化数字体验的利器

阿里巴巴云原生

阿里云 云原生 全链路追踪 RUM

面试官:项目中如何实现布隆过滤器?

王磊

inBuilder零代码新版表单设计器特性一览

inBuilder低代码平台

低代码 零代码

被动元数据的不足和主动元数据的先进性

Aloudata

大数据 数据治理 元数据 数据管理 数据血缘

AI加速数字员工智能化落地——中国数字员工市场发展及企业数字员工落地建议

易观分析

第一届POLARDB数据库性能大赛-亚军0xCC☣☢比赛攻略

阿里云天池

ChatGPT 向更多用户推出高级语音模式:支持 50 种语言;字节发布两款新视频生成大模型丨 RTE 开发者日报

声网

TEDxDUTH 使用 NocoBase 实现革新

NocoBase

低代码 TED 管理工具 无代码 创新管理

如何借助SD-WAN实现简单且经济的组网?

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

体验3A云游戏,无需购买高端显卡

Ogcloud

云游戏 3A云游戏 云游戏发行 游戏云化

2024-09-25:用go语言,给定一个长度为 n 的整数数组 nums 和一个正整数 k, 定义数组的“能量“为所有和为 k 的子序列的数量之和。 请计算 nums 数组中所有子序列的能量和,并对

福大大架构师每日一题

福大大架构师每日一题

新场景、新能力,AI-native 时代的可观测革新

阿里巴巴云原生

阿里云 云原生 可观测

开发者的利器:Rainbond 赋能你的产品创新

北京好雨科技有限公司

云原生 k8s rainbond 企业号9月PK榜

从自动化到智能化:AI如何推动业务流程自动化

天津汇柏科技有限公司

自动化 智能化 AI 人工智能

Spark“数字人体”AI挑战赛_脊柱疾病智能诊断大赛_GPU赛道亚军比赛攻略_triple-Z团队

阿里云天池

手工测试用例转Web自动化测试生成

霍格沃兹测试开发学社

火山引擎数据飞轮面向企业大模型业场景务提供数智服务

字节跳动数据平台

大模型 数智化 数智化转型

观测云全面支持 OaC,通过 Terraform 管理您的可观测性

观测云

Terraform

如何根据拍立淘API返回值进行商品数据分析

技术冰糖葫芦

API Gateway api 货币化 API 接口 API 测试 pinduoduo API

鸿蒙智行首款轿跑SUV智界R7上市,小艺化身贴心随行的用车顾问

Geek_2d6073

豆包MarsCode初体验,用 React 创建一个最经典的贪吃蛇游戏

豆包MarsCode

人工智能 编程 程序员 AI 代码

专业期刊《Java aktuell》:使用Apache TsFile和Apache IoTDB对时序数据进行分布式数据采集

Apache IoTDB

如何在 Rust 中通过 Rumqttc 实现 MQTT 通信

EMQ映云科技

rust mqtt emqx

性能测试 | JMeter的运行

测试人

软件测试

PhysicsAI 与 Inspire Cast 的结合:实现铸件缺陷的快速预测

Altair RapidMiner

人工智能 AI 仿真 智能制造 altair

“万亿级”低空经济,谁在风口上“飞”?

趣解商业

科技 出行 低空经济

天池云上智能降雨量预测总决赛-优胜奖RIOFGROUP队攻略分享

阿里云天池

JMeter的运行

霍格沃兹测试开发学社

华为四大创新助力运营商打造万兆智能接入网,加快50G PON商用部署,加速智能应用创新

Geek_2d6073

【首席战略官分享】流程管理和流程数字化 | 活动成本法

望繁信科技

数字化转型 业务流程管理 流程挖掘

雅虎! 来自Hadoop峰会的最新更新_架构_Ron Bodkin_InfoQ精选文章