近日,Apache Hadoop 3.3.0版本正式发布,增加对腾讯云对象存储COS的支持。
Apache Hadoop 3.3.0 是 2020 年 Apache Hadoop 3.3 系列的第一个版本,包含许多重要特性和增强功能,部分列举如下:
ARM支持:这是第一个支持ARM体系结构的版本。
protobuf升级:由于protobuf-2.5.0版本寿命终止,将protobuf升级到3.7.1。
S3A功能增强:对S3A代码做了许多功能上的增强,包括支持委托令牌(Delegation Token)、更好地处理404缓存、改进S3guard性能和弹性。
ABFS功能增强:解决实际使用中出现的问题并调整需要优化的地方,适当增加更多测试,改进文档,尤其是故障排除的文档。
实现腾讯云COS文件系统支持:腾讯云是中国市场上排名第二的云供应商,其对象存储COS在中国云用户中得到了广泛使用。COSN文件系统可在Hadoop中原生支持腾讯云COS。
Java11运行时支持: Java 11运行时支持的开发工作已完成。
HDFS RBF稳定性改进:HDFS路由器现在已提供对安全性的支持,还包含许多错误修复和改进。
DNS解析以支持域名到IP服务: DFS客户端可以使用单个域名来发现服务器(名称节点/路由器/观察者),而不必在配置中明确列出所有主机。
机会容器(opportunistic containers)的调度:支持通过中央RM(YARN-5220)、分布式调度(YARN-2877)以及基于实际节点利用率的容器调度(YARN-1011)和容器升级/降级(YARN-5085)来调度机会容器。
YARN应用程序的应用程序目录:应用程序目录系统为YARN应用程序提供编辑和搜索界面。这提高了YARN在管理应用程序生命周期的可用性。
Hadoop 是目前应用最为广泛的分布式大数据处理框架,也是大数据处理领域事实上的标准。
大数据分析需要花费大量的计算和存储资源。在传统模式下,计算与存储资源耦合度较高,一旦资源不够,就需要对二者同时进行扩容。近年来,在云计算的推动下,开发者逐渐开始采用云上对象存储,来实现计算与存储的分离,进而提升资源的灵活性,并降低成本。
此次 Hadoop 新版本正式支持腾讯云对象存储 COS,意味着后续开发者在基于 Hadoop 架构进行大数据分析时,能够在不修改代码的情况下,无缝高效地使用腾讯云 COS 来处理海量数据读写任务。这在一定程度上标志着腾讯云对象存储技术受到了 Hadoop 开源社区的认可。
腾讯云对象存储 COS 底层采用腾讯自研存储引擎 YottaStore,能够实现单集群理论管理百万级节点和按需扩容,磁盘利用率达到 90% 以上。
“开发者在腾讯云上可以使用弹性 MapReduce(EMR)计算,并直接使用腾讯云对象存储 COS 作为后端存储,整个过程都不需要额外添加代码,更加方便和快捷。”腾讯云对象存储负责人介绍。
目前,小红书、猎豹移动、珍爱网等公司都使用腾讯云“EMR on COS”的计算与存储分离模式来快速构建和部署大数据分析程序,以满足企业大数据业务需求。
评论