写点什么

Pivotal 和 EMC 谈下一代数据湖技术:Tachyon + Spark 将极为重要

  • 2014-10-16
  • 本文字数:2107 字

    阅读完需:约 7 分钟

在纽约举办的 2014 年 Strata+Hadoop World 大会开幕的前一天,Pivotal 在官方博客上发布了一篇名为《数据湖(Data Lake)的未来架构:基于 Tachyon 和 Apache Spark 的 In-memory 数据交换平台》的文章,表达 Pivotal 与 EMC 对下一代数据湖技术的展望:

下一代数据湖技术的关键在于 In-memory 处理的普及 + 能够在单一环境下支持多重数据分析负载的架构。

文中表示, Pivotal Big Data Suite 一直以来的理念是将数据湖作为企业内所有数据的中心化仓库,这样的好处是可以对所有的数据——无论是内存数据还是磁盘数据——进行 SQL 级别的处理,同时具有将多种计算范式持久化的能力。然而随着高性能内存的性价比越来越高,内存数据库的相关技术与企业越来越成熟,Pivotal 认为未来的数据湖将基于一种组合式的新架构:磁盘存储 + 内存处理的混合框架。

Pivotal 选择了 Tachyon Spark 这两个开源项目作为此新架构的基础。其中,Tachyon 作为其内存数据交换平台,而 Spark 作为内存计算层。文章在末尾处表示,Pivotal 相信 Tachyon 会给 HDFS 这样的文件存储与内存处理的交互方式带来革命性的变化,并展望 Tachyon 会成为其 Pivotal Big Data Suite 的中心数据交换层。

InfoQ 此前对 Spark 项目有过为数不少的报道和介绍,这个孵化自AMPLab 的项目在过去两年间受到业界的广泛关注,被视为实时数据处理的一个优先选项。Tachyon 项目也是来自于AMPLab,最早在2012 年底对外发布,是一个相对年轻的项目,在最近也受到了越来越多公司的关注,这包括雅虎、红帽、Intel 还有EMC——EMC 已经在其闪存产品DSSD Isilon 中尝试集成 Tachyon,Pivotal 的文章中称 Tachyon 是 AMPLab 历史上成长最快的项目。

根据该项目官网的介绍,Tachyon 是一个内存分布式文件系统,效果是“在Spark 或MapReduce 等集群框架中实现内存级速度的跨集群文件共享”。它具有类Java 的文件API、兼容Hadoop MapReduce 和Spark、底层文件系统可插拔等特性。

InfoQ 中文站针对此事采访了 Tachyon 项目的负责人、UC Berkeley AMPLab 的博士候选人李浩源,沟通内容如下:

InfoQ:很高兴看到 Tachyon 得到越来越多的关注。Tachyon 是你的博士研究方向,当时为何选择了这样一个课题?

李浩源:一方面是个人兴趣,一直以来,我对存储有很大的兴趣,因为计算机数据处理流程分为读取、处理分析、以及写入,前后都是都是有存储系统来完成。另一方面是机会,我是 3 年前加入 UC Berkeley AMPLab 的,实验室有过很多成功的项目,比如 Apache Mesos 和 Apache Spark,但是它们一个是计算机集群资源调度层,一个是并行计算层,还没有一个存储层的支撑。两方面结合,我就选择了这个课题。

InfoQ:在 Github 上看到现在参与 Tachyon 项目的开发者和企业也有将近 50 人,你从大家的 patch 来看,是否感觉各个公司的侧重点有些不同呢?目前项目是如何管理的?

李浩源:参与 Tachyon 项目的开发者实际上大于 Github 上的统计数据(其中包括不少来自国内的开发者),并且还有一些比较大的功能在一些公司和科研机构已经内部测试过,正在提交的过程中。

因为每个公司机构的战略不一样,所以的确侧重点是不一样。比如说,网络硬件公司就会对 Tachyon 的网络层更加有兴趣,系统集成公司对 Tachyon 的兼容性更有兴趣。

从项目管理上来讲,Tachyon 有一个开放的社区,很欢迎更多的开发者加入。目前的流程是比较小规模的改动,开发者会自己提交一个 Patch。而对于比较大的功能,开发者和我会紧密的合作,确保功能和项目的总体方向切合,并有一个初步设计意向。而后社区会对设计和代码提出建议,经过一些轮的改动之后,我会尽快把代码融合 (merge) 到项目的公共代码库中。

随着项目的发展,越来越多的公司和机构已经或者开始投入全职员工对项目进行开发,其中包括很多在其领域领先的上市公司,从长期来讲,我们会像 Apache Mesos 以及 Apache Spark 一样,进入 Apache Software Foundation。这里欢迎更多的开发者加入。

InfoQ:你以前说过,在学校做东西需要有学术价值,但企业更注重将东西产品化、商业化。现在 Tachyon 毫无疑问是越来越商业化了,你现在觉得出论文和商业化有很大的差别吗?

李浩源:差别的确是有的,但是不一定‘很大’。我的经验还很浅薄,但是在我做的领域,学术是需要有前瞻性(比如需要预测未来的趋势,根据趋势来指引方向),可以作为工业化的基础,但是工业化在此基础上还需要做大量的工作。这两件事情在 Tachyon 这个项目上目前来看是相辅相成的。比如我们 Tachyon 第一篇论文只是项目中的一个功能、或者说是一个点,从这个点出发,我们做大量的工作来工业化。这些工作的直观成果是,今年以来,使用 Tachyon 的公司数量在指数增长,根据三个月前的调查,已经有至少 50-100 家公司已经在使用 Tachyon。这些工作的间接成果是,通过更多公司的使用,使得学术机构看到很多不同的应用案例,从而进行相对应的研究。目前我们实验室内部,以及和其他高校合作,就有不少基于目前 Tachyon 项目的相关科研工作,明年应该会看到更多的成果。因为这些科研距离实际案例很近,所以会相对更加容易的增强 Tachyon 在产业界的应用和价值。

李浩源将在 10 月 16 日的 Strata 大会上就 Tachyon 项目进行分享

2014-10-16 18:357785

评论

发布
暂无评论
发现更多内容

HTTP和HTTPS是什么 二者区别是什么

肥晨

11月月更 http和https http工作原理

GoFrame的gmap相比Go原生的map,天然支持排序和有序遍历!?

王中阳Go

Go golang 高效工作 学习方法 11月月更

ModelBox姿态匹配:抖抖手动动脚勤做深呼吸

华为云开发者联盟

人工智能 华为云 企业号十月 PK 榜

为什么要用CSS精灵图

源字节1号

软件开发 前端开发 后端开发 小程序开发

字节跳动开源数据集成引擎BitSail的演进历程与能力解析

字节跳动数据平台

数据库 开源 数据开发 数据集成 企业号十月 PK 榜

RocksDB 7 终于解决了 Compaction 时性能下降问题

Kvrocks

redis RocksDB kvrocks

京东云开发者|IoT运维 - 如何部署一套高可用K8S集群

京东科技开发者

运维 k8s IoT etcd K8s 多集群管理

【C语言】break 关键字

謓泽

11月月更

EMQ《物联网平台大规模数据接入和处理性能评测方法》成功入选“可信边缘计算推进计划”

EMQ映云科技

物联网 IoT 边缘计算 边云协同 11月月更

详解 Serverless 架构的 6 大应用场景

阿里巴巴云原生

阿里云 Serverless 云原生

2022世界互联网大会 | VoneCredit为中小企业纾困解忧

旺链科技

区块链 产业区块链 世界互联网大会 企业号十月PK榜

前端面经

肥晨

前端面试题 11月月更 前端面筋 超全面试题

不借助 Fiori client,直接在手机浏览器里调用 SAP UI5 BarcodeScanner 实现条形码扫描的可能性?

汪子熙

JavaScript 前端开发 Fiori SAP UI5 11月月更

云数据库时代,DBA将走向何方?

华为云开发者联盟

数据库 后端 华为云 企业号十月 PK 榜

Serverless Developer Meetup 杭州站精彩回顾!【附赠PPT】

阿里巴巴云原生

阿里云 Serverless 云原生

知象光电完成过亿元C轮融资,加速发力全球市场

硬科技星球

详解AQS中的condition源码原理

华为云开发者联盟

开发 华为云 企业号十月 PK 榜

3层结构+7大特点,带你认识华为云IoTEdge

华为云开发者联盟

云计算 物联网 华为云 企业号十月 PK 榜

SOFARegistry | 大规模集群优化实践

SOFAStack

开源 SOFA SOFARegistry'

拥抱“大信创”浪潮,优博讯开启成长新曲线

极客天地

软件测试面试真题 | 说一下常用的控件定位方法

测试人

软件测试 面试题 web测试 元素定位

DevData Talks | 让效能度量产生真正的价值,要避开多少“坑”?

思码逸研发效能

研发效能 研发管理工具 企业研发管理

HummerRisk V0.5:新版云合规报告、资源风险联动、拓扑展示等内容

HummerCloud

云安全 云原生安全 11月月更

软件测试面试真题 | 面试时被问到知识盲区,该怎么办呢?

测试人

软件测试 面试题 测试开发

Go语言躲坑经验总结

百度Geek说

Go 企业号十月 PK 榜

【重磅】Serverless Devs 进入 CNCF 沙箱,成首个入选的 Serverless 工具项目!

阿里巴巴云原生

阿里云 Serverless 云原生

Paddle模型性能分析工具Profiler:定位瓶颈点、优化程序、提升性能

汀丶人工智能

自然语言处理 nlp 性能分析 11月月更

分布式锁实战:基于Zookeeper的实现

小小怪下士

Java zookeeper 分布式

装了我这 10 个 IDEA 神级插件后,同事也开始情不自禁的嘚瑟了

沉默王二

IntelliJ IDEA

河北首家城商行传统核心业务国产化,TDSQL突破三“最”为秦皇岛银行保驾护航

腾讯云数据库

数据库 分布式 tdsql 客户案例 腾讯云数据库

「文本检测与识别白皮书-3.2」第三节:常用的文本识别模型

合合技术团队

人工智能 机器学习 深度学习 模型 文字识别

Pivotal和EMC谈下一代数据湖技术:Tachyon + Spark将极为重要_大数据_sai_InfoQ精选文章