近日,开源云原生数据编排软件开发商Alluxio宣布完成 5000 万美元 C 轮融资。据了解,该轮融资由新投资方高瓴创投领投,战略投资方和原股东a16z、Seven Seas Partners、火山石投资跟投。通过本轮融资,Alluxio 将加大产品研发力度,在全球扩大目标市场规模和研发运营覆盖范围。
同时,Alluxio 宣布将大力拓展国内市场业务,将北京设立为中国区总部,并成立本地化的研发团队,以快速响应并满足众多国内企业的个性化需求。
Alluxio是一个开源的虚拟分布式文件系统,最初起源于一个叫 Tachyon 的研究项目,这个项目出自李浩源(Alluxio 创始人兼首席执行官)在加州大学伯克利分校 AMPLab 实验室读博期间的博士论文课题。博士毕业后,李浩源将博士论文的研究成果基于 Apache 2.0 许可协议开源,并创建了同名商业化公司 Alluxio。Alluxio 的首个版本发布于 2013 年,在宣布 C 轮融资的同日,Alluxio 也发布了最新的 2.7 版本。
从整个生态系统来看,Alluxio 处在大数据栈中的计算和存储之间。它为计算框架提供了数据抽象层,使得应用能够通过一个共同的接口连接底层不同的存储系统。Alluxio 能够部署在私有环境、公有云环境(如 Microsoft Azure、AWS、Google Cloud Platform)或混合云环境中,也可以直接运行在物理机之上或者类似于 Kubernetes、Docker 的容器化环境当中。
目前全球有超过 1100 位贡献者参与 Alluxio 开源社区,他们来自于超过三百多个机构组织,包括国内外计算机领域头部的高校、实验室,全球排名最靠前的科技公司,以及一些领先的电信公司和金融公司。从部署的角度来讲,全球市值最高的前十名互联网厂商中有八家(包括 Facebook、Airbnb、Uber、阿里巴巴、腾讯和字节跳动等)在生产环境里面部署了 Alluxio 的软件系统。与此同时,在全球前六名的云厂商中有五家云厂商已经嵌入了 Alluxio 的技术。
对于 Alluxio 的定位以及在市场上的竞品情况,李浩源在接受 InfoQ 等媒体采访时表示,从战略层面来讲,Alluxio 是没有竞品的,从战术层面来讲有竞品,但不重要。在他看来,Alluxio 这个产品本身源于自己的博士论文,这在一开始算一个很独特的学术研究。开源之后,团队花了很多时间和精力去统一社区,把所有的头部核心企业都纳入到 Alluxio 的开源社区里。李浩源认为这是 Alluxio 做的很成功的一件事,现在绝大部分的头部互联网企业、头部云厂商以及全球前两名的芯片厂商英特尔、英伟达都在社区里面。从这个角度来讲,市场不大可能给另外一个同类软件机会了。
据称,Alluxio 单一用户单一集群已经做到了三四千台服务器以上的规模,使用比较多的单一用户甚至有上万台机器。李浩源认为,无论怎么做软件,无论花多少时间、精力和资金,没有几年时间是很难做出这种能在上万台机器上稳定运行的大型分布式软件的成果的,所以从战略的角度来讲,“Alluxio 的市场领先度极高”。
李浩源进步一步补充道,从战术的角度来讲,有的时候不是所有用户上来就把 Alluxio 当作平台来用,所以有一些战术上切入进客户的小案例,从这个角度来讲,Alluxio 是有一些小的竞争对手,但是都不重要。
对于 C 轮融资资金的使用规划,李浩源表示,“为了保持竞争力,各行业的头部公司都在进行数字化转型。越来越多的企业架构已转向混合云和多云环境。虽然这种转变带来了更大的灵活性和敏捷性,但也意味着必须将计算与存储分离,这就对企业跨框架、跨云和跨存储系统的数据管理和编排提出了新的挑战,这笔融资将帮助公司进一步推动业务增长,助力全球扩张计划,进而帮助更多企业解决时下面临的最复杂的数据挑战。”
在宣布 C 轮融资的同一天,Alluxio 正式发布数据编排平台 2.7 版本。2.7 版本通过并行数据加载、数据预处理和训练工作流,可将机器学习(ML)训练的 I/O 效率提高 5 倍,从而显著降低成本。新版本还提供了更强的性能分析,并能更好地支持 Apache Hudi 和 Iceberg 等开放表格格式,使得对数据湖的访问更易于扩展。
Alluxio 2.7 版本新增功能具体如下:
使用 Alluxio 和 NVIDIA 的 DALI 进行机器学习训练
NVIDIA 的数据加载库(DALI)是一个常用的 Python 库,支持通过 CPU 和 GPU 进行数据加载和预处理从而加速深度学习。在 2.7 版本中,Alluxio 平台进行了优化,可以与 DALI 一起部署用于加速基于 Python 的 ML 应用,其中包括模型训练和推理之前的数据加载和预处理步骤。通过加速 I/O 密集型工作并允许并行处理后续的计算密集型训练,Alluxio 数据平台上的端到端训练与传统解决方案相比实现了显著的性能提升。对于海量小文件的训练,与其他解决方案相比,该解决方案可以实现横向扩展(scale-out)。
大规模数据加载
Alluxio 的核心定位是数据管理能力,这些能力包括对分散的数据源进行统一和实现缓存。随着 Alluxio 越来越多地用于计算和存储跨多个地理位置的场景,Alluxio 自身也在不断扩展。本次更新采用新技术对数据进行批处理,从而增强其可扩展性。批处理通过使用内置执行引擎处理数据加载等任务,减少了管理控制器对资源的需求,从而减少了系统配置的工作量,降低了成本。
Kubernetes 上的易用性
Alluxio 现在支持用于 Kubernetes 的原生容器存储接口(CSI)驱动,以及用于 ML 的 Kubernetes operator,这使得在容器化环境中的 Alluxio 平台上操作 ML 工作流比以往任何时候都更加容易。 Alluxio 的卷类型现在可用于 Kubernetes 环境。敏捷性和易用性是本次新版本关注的重点。
在 Presto 上基于分析动态调整缓存
新版本还推出了智能缓存新功能,名为 Shadow Cache,能够动态分析缓存大小对响应速度的影响,从而轻松实现高性能和低成本之间的平衡。对于大规模的多租户 Presto 环境,此新功能通过自助管理显著降低了管理开销。
了解更多有关 Alluxio 2.7 版本的信息,请参阅产品博客:
https://www.alluxio.io/blog/whats-new-in-alluxio-2-7/
Alluxio 2.7 版本下载地址:
评论