美国时间 10 月 22 日凌晨,由 Apache Spark 创始成员成立的大数据初创公司 Databricks 宣布完成 4 亿美元 F 轮融资,本轮融资由美国私人风投公司 Andreessen Horowitz 领投,微软、Alkeon Capital Management、BlackRock 等跟投。本轮融资后,Databricks 最新估值高达 62 亿美元,与今年 2 月份完成 E 轮融资时的估值相比已经翻了不止一倍!
除了大数据领域赫赫有名的开源项目 Spark,Databricks 在 2018 年 6 月、2019 年 4 月先后又开源了全流程机器学习平台 MLflow 和存储层 Delta Lake,均在业内引起热烈反响。在过去一年中,Databricks 的年度经常性收入(ARR)增长了 2.5 倍以上,在本轮融资前,Databricks 刚刚宣布其 2019 年第三季度营收达到 2 亿美元,而四年前他们几乎还没有任何收入。
Market Research Future 的一份报告指出,到 2023 年,大数据分析市场规模将达到 2750 亿美元。与此同时,Gartner 最近预测,到 2022 年,人工智能衍生的业务收入将达到 3.9 万亿美元。面对这么大一块蛋糕,难怪投资人纷纷在大数据分析市场投下重金。据报道,数据分析服务提供商 Fractal Analytics 在一月份筹集到了2亿美元;在那之后不久,端到端数据运营平台提供商 Unravel 又获得了3500万美元的 C 轮融资;业务分析初创公司 Sisense 则在去年 9 月筹集了8000万美元,以扩大产品范围。同样在今年 6 月,谷歌豪掷 26 亿美元收购数据分析公司 Looker,成为谷歌近五年最大手笔的一次收购。
外媒 VentureBeat 这样评价Databricks 的这次融资:“自 2013 年创立以来,Databricks 就一直不愁吸引不到客户。但这周可能会将该公司不断向市场支配地位进军之势推向高潮。”
宣布融资消息的同时,Databricks 还宣布聘请 Dave Conte 为公司首席财务官,Dave Conte 曾担任 Splunk 首席财务官长达八年,未来他将领导 Databricks 的所有财务和运营职能,并直接向 CEO Ali Ghodsi 汇报。
现在,Databricks的客户包括Hotels.com、Viacom、HP、壳牌能源、Expedia,以及来自广告、技术、能源、政府、金融服务、医疗保健、游戏、生命科学、媒体和零售等领域的众多企业。Ghodsi 表示,目前总共有超过 5000 个组织的数据团队正在使用 Databricks 的数据分析平台,这相当于 2019 年初 Databricks 公布的组织数量(2000 个)的两倍以上。
“ (我们)是有史以来增长最快的企业级软件云厂商之一。我们在海量数据处理、机器学习、开源和向云端迁移的赌注都在市场上发挥了巨大作用,并为我们带来了海量且快速增长的全球客户需求。” Ghodsi 补充道。
本轮融资将用于帮助公司扩大研发规模并继续进行快速的全球扩张。具体来说,Databricks 将:
在未来三年内,向其最近在阿姆斯特丹成立的欧洲研发中心投资 1 亿欧元。据称,该研发中心在过去两年中已经增长了 3 倍。
建立专门的工程团队,以推进其最近推出的多项开源项目的技术研发,这些项目主要用于数据管理和机器学习,包括:Delta Lake、MLflow 和 Koalas。
推动和加速公司在全球的业务扩张,包括欧洲、中东、非洲、亚太地区和拉丁美洲。
本轮融资领投方 Andreessen Horowitz 的联合创始人兼总合伙人 Ben Horowitz 表示:“没有其他公司像 Databricks 一样如此成功地将开源软件商业化。我们都见证了 Apache Spark 作为大数据处理标准的强势发展。毫不意外,我们将继续看到该团队在开源上做出更多创新,包括 Delta Lake、MLflow 和 Koalas。”
关于 Databricks
Databricks 由 Apache Spark 的创始成员创立,而 Apache Spark 是由加州大学伯克利分校 AMPLab 基于 Scala 开发的一个开源分布式通用集群计算框架,从 2014 年左右开始得到广泛关注,经过几年发展逐渐成为大数据处理的事实标准。虽然 Spark 仍然是 Databricks 的一个关键产品,但现在只是 Databricks 所做的众多事情中的一小部分。如今 Databricks 已将重点转向机器学习。
开源 MLflow
MLflow是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的开源新平台,旨在为数据科学家构建、测试和部署机器学习模型的复杂过程做一些简化工作。有了 MLflow,数据科学家就可以在本地(笔记本电脑)或远程(云端)跟踪和共享机器学习实验、跨框架打包和共享模型,并几乎可以在任何地方部署模型。
作为一家大数据解决方案公司,Databricks 与数百家使用机器学习的公司合作,所以能够清楚地了解他们的痛点,比如工具太过复杂、难以跟踪实验、难以重现结果、难以部署模型。由于这些挑战的存在,机器学习开发必须变得与传统软件开发一样强大、可预测和普及。为此,很多企业已经开始构建内部机器学习平台来管理机器学习生命周期。例如,Facebook、谷歌和优步分别构建了 FBLearner Flow、TFX 和 Michelangelo 来进行数据准备、模型训练和部署。但这些内部平台存在一定的局限性:典型的机器学习平台只支持一小部分内置算法或单个机器学习库,并且被绑定在公司内部的基础设施上。用户无法轻易地使用新的机器学习库,或与社区分享他们的工作成果。
Databricks 认为应该使用一种更好的方式来管理机器学习生命周期,于是他们推出了 MLflow。MLflow 主要包含了三个组件:
跟踪组件支持记录和查询实验数据,如评估度量指标和参数;项目组件提供可重复运行的简单包装格式;而模型组件则提供用于管理和部署模型的工具。
自一年前发布第一个版本以来,MLflow 已经被数千个组织所采用。它被用于管理机器学习工作负载,一些服务平台(如 Databricks)还提供了 MLflow 服务。MLflow 社区已经有 100 多名贡献者,MLflow PyPI 包的下载频率已接近每月 60 万次。MLflow 1.0 已于今年 6 月正式发布,这一版本不仅标志着 API 的成熟和稳定,还增加了很多新特性和改进。
开源 Delta Lake
Delta Lake 由 Databricks 在今年年初开源,该项目旨在与社区共同打造一个开放标准,以管理数据湖中的大量数据,并不断提高数据湖的可靠性、质量和性能。Delta Lake为 Apache Spark 和其他大数据引擎提供可伸缩的 ACID 事务,让用户可以基于 HDFS 和云存储构建可靠的数据湖。此外,Delta Lake 还提供了内置的数据版本控制,可以方便地回滚以及重新生成报告。目前 Delta Lake 已经被成千上万的组织采用,包括 Intel、阿里巴巴、Booz Allen Hamilton 都是其开源生态一员。
近日,在荷兰阿姆斯特丹举行的 Spark+AI 欧洲峰会上,DataBricks 和 Linux 基金会联合宣布,开源项目 Delta Lake 正式成为 Linux 基金会的托管项目。
Delta Lake 提供的主要功能包括:
ACID 事务:Delta Lake 提供多个写操作之间的 ACID 事务。每个写操作都是一个事务,事务日志中记录的写操作有一个串行顺序。事务日志会跟踪文件级的写操作,并使用乐观并发控制,这非常适合数据湖,因为尝试修改相同文件的多个写操作并不经常发生。在存在冲突的场景中,Delta Lake 会抛出一个并发修改异常,以便用户处理它们并重试它们的作业。Delta Lake 还提供了强大的序列化隔离级别,允许工程师不断地对目录或表进行写操作,而用户可以不断地从相同的目录或表中读取数据。读取者将看到读操作开始时存在的最新快照。
模式管理:Delta Lake 会自动验证正在写入的 DataFrame 模式是否与表的模式兼容。表中存在但 DataFrame 中不存在的列会被设置为 null。如果 DataFrame 中有额外的列在表中不存在,那么该操作将抛出异常。Delta Lake 具有可以显式添加新列的 DDL 和自动更新模式的能力。
可伸缩的元数据处理:Delta Lake 将表或目录的元数据信息存储在事务日志中,而不是存储在元存储(metastore)中。这使得 Delta Lake 能够在固定的时间内列出大型目录中的文件,并且在读取数据时非常高效。
数据版本控制和时间旅行:Delta Lake 允许用户读取表或目录先前的快照。当文件在写期间被修改时,Delta Lake 将创建文件的新版本并保存旧版本。当用户希望读取表或目录的旧版本时,他们可以向 Apache Spark 的读操作 API 提供一个时间戳或版本号,Delta Lake 根据事务日志中的信息构建该时间戳或版本的完整快照。这使得用户可以重新进行试验并生成报告,如果需要,还可以将表还原为旧版本。
统一的批处理和流接收(streaming sink):除了批处理写之外,Delta Lake 还可以使用 Apache Spark 的结构化流作为高效的流接收。再结合 ACID 事务和可伸缩的元数据处理,高效的流接收现在支持许多接近实时的分析用例,而且无需维护复杂的流和批处理管道。
记录更新和删除(即将到来):Delta Lake 将支持合并、更新和删除 DML 命令。这使得工程师可以轻松地维护和删除数据湖中的记录,并简化他们的变更数据捕获和 GDPR 用例。由于 Delta Lake 在文件粒度上跟踪和修改数据,因此,比读取和覆写整个分区或表要高效得多。
数据期望(即将到来):Delta Lake 还将支持一个新的 API,用于设置表或目录的数据期望。工程师将能够通过指定布尔条件及调整严重程度来处理数据期望。当 Apache Spark 作业写入表或目录时,Delta Lake 将自动验证记录,当出现违规时,它将根据所预置的严重程度处理记录。
评论