Amazon Elastic MapReduce (EMR) 的总经理 Peter Sirota 在 2010 年的 Hadoop 峰会 上作了主题演讲,介绍了一个由 Amazon 托管的 Hadoop 服务,并且还包括了基于 web 管理工具。Sirota 指出了如下一些来自客户的常见的用例:
- 数据挖掘与商业智能,包括日志处理,点击流分析,相似性分析,精准广告投放 (他认为这一用例比重非常大)。
- 数据仓库,特别是使用 Pig 和 Hive。
- 生物信息技术 (基因分析)。
- 金融模拟 (例如,蒙特卡洛模拟)。
- 文件处理 (例如,jpeg 大小改修)。
- web 索引。
Sirota 谈到,用户可以在 Amazon 的 S3 存储系统中存储以百计的 PB 级的数据。他宣称 Amazon 已经提供支持基于 Hadoop 0.20 的新的软件栈,同时基于 Hadoop 0.18 的设施“也不会这么快退休”。Amazon 的 EMR 软件与管理控制台相集成,并且能原生支持 Amazon 的 S3 云存储设施。
新软件栈 旧软件栈 Hadoop 0.20 Hadoop 0.18 Pig 0.6 Pig 0.3 Hive 0.5 Hive 0.4 Cascading 1.1 Cascading 1.1Sirota 注意到,客户要求更高的集群灵活性,更好的应用开发工具,更好的分析能力和更多的支持选择。接下来他公告了新功能和在各个领域的合作。 Sirota 表示,他们支持用户在运行的集群中增加和移除节点,这能够调整运行时的任务——将计算能力加倍能够将原来需要 6 小时完成的任务减小到 3 小时完成。他同时指出能够支持用户方便的更改集群的大小,可以使用较小的节点集合来使用 Hive 处理查询,用较大的节点集合来进行更新 Hadoop 系统的批处理过程,与此同时保证 EMR 集群正常的运行。
Sirota 还预告了即将推出的 elastic mapreduce 的即期价格 (spot pricing),这是超出 EC2 计量而使用 EMR 的 Amazon市场价格的延伸。它允许竞拍一定量的附加节点。如果在该出价下还有可获得的容量,那么节点就会被加入到EMR 集群,尽管在市场价超过该竞拍价时这些节点会被移去。他给出了一个使用四个随需节点,并加入第五个附加节点的任务作为例子。这一选项可以为计算环境节省成本,而对于计算完成的速度又提供了很大的灵活性。
Sirota 同时还宣布了 EMR 新的银牌和金牌支持服务级别,金牌支持包括 7x24 以及紧急情况下 1 小时的响应时间。Sirota 接着介绍了 Amazon 的合作伙伴,与 Karmasphere 在开发工具和监控方展开合作, Datameer 提供商业用户分析的合作, Microstrategy 提供总体的 Hadoop 支持服务,包括 EMR 支持,以及通过 Hive 与他们的商业智能工具集成。
Amazon 在 Hadoop 峰会上召开了一个 Elastic MapReduce 的客户座谈会,专门介绍了来自 Razorfish,Netflix ,Spiral Genetic 以及 Coldlight Solutions 的案例, James Hamilton 的博文对此作了总结。
Amazon 表明了其对于提升 Elastic MapReduce 有着显著的持续投入,并对于使用托管服务搭建的大规模应用给出了一些有趣的见解。
查看英文原文: Amazon Elastic MapReduce Updates from Hadoop Summit 2010
活动推荐:
2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。
评论