写点什么

半年估值翻番达 62 亿美元:大数据初创公司 Databricks 再获 4 亿融资

  • 2019-10-23
  • 本文字数:3606 字

    阅读完需:约 12 分钟

半年估值翻番达62亿美元:大数据初创公司Databricks再获4亿融资

美国时间 10 月 22 日凌晨,由 Apache Spark 创始成员成立的大数据初创公司 Databricks 宣布完成 4 亿美元 F 轮融资,本轮融资由美国私人风投公司 Andreessen Horowitz 领投,微软、Alkeon Capital Management、BlackRock 等跟投。本轮融资后,Databricks 最新估值高达 62 亿美元,与今年 2 月份完成 E 轮融资时的估值相比已经翻了不止一倍!


除了大数据领域赫赫有名的开源项目 Spark,Databricks 在 2018 年 6 月、2019 年 4 月先后又开源了全流程机器学习平台 MLflow 和存储层 Delta Lake,均在业内引起热烈反响。在过去一年中,Databricks 的年度经常性收入(ARR)增长了 2.5 倍以上,在本轮融资前,Databricks 刚刚宣布其 2019 年第三季度营收达到 2 亿美元,而四年前他们几乎还没有任何收入。


Market Research Future 的一份报告指出,到 2023 年,大数据分析市场规模将达到 2750 亿美元。与此同时,Gartner 最近预测,到 2022 年,人工智能衍生的业务收入将达到 3.9 万亿美元。面对这么大一块蛋糕,难怪投资人纷纷在大数据分析市场投下重金。据报道,数据分析服务提供商 Fractal Analytics 在一月份筹集到了2亿美元;在那之后不久,端到端数据运营平台提供商 Unravel 又获得了3500万美元的 C 轮融资;业务分析初创公司 Sisense 则在去年 9 月筹集了8000万美元,以扩大产品范围。同样在今年 6 月,谷歌豪掷 26 亿美元收购数据分析公司 Looker,成为谷歌近五年最大手笔的一次收购。


外媒 VentureBeat 这样评价Databricks 的这次融资:“自 2013 年创立以来,Databricks 就一直不愁吸引不到客户。但这周可能会将该公司不断向市场支配地位进军之势推向高潮。”


宣布融资消息的同时,Databricks 还宣布聘请 Dave Conte 为公司首席财务官,Dave Conte 曾担任 Splunk 首席财务官长达八年,未来他将领导 Databricks 的所有财务和运营职能,并直接向 CEO Ali Ghodsi 汇报。


现在,Databricks的客户包括Hotels.com、Viacom、HP、壳牌能源、Expedia,以及来自广告、技术、能源、政府、金融服务、医疗保健、游戏、生命科学、媒体和零售等领域的众多企业。Ghodsi 表示,目前总共有超过 5000 个组织的数据团队正在使用 Databricks 的数据分析平台,这相当于 2019 年初 Databricks 公布的组织数量(2000 个)的两倍以上。


“ (我们)是有史以来增长最快的企业级软件云厂商之一。我们在海量数据处理、机器学习、开源和向云端迁移的赌注都在市场上发挥了巨大作用,并为我们带来了海量且快速增长的全球客户需求。” Ghodsi 补充道。


本轮融资将用于帮助公司扩大研发规模并继续进行快速的全球扩张。具体来说,Databricks 将:


  • 在未来三年内,向其最近在阿姆斯特丹成立的欧洲研发中心投资 1 亿欧元。据称,该研发中心在过去两年中已经增长了 3 倍。

  • 建立专门的工程团队,以推进其最近推出的多项开源项目的技术研发,这些项目主要用于数据管理和机器学习,包括:Delta Lake、MLflow 和 Koalas。

  • 推动和加速公司在全球的业务扩张,包括欧洲、中东、非洲、亚太地区和拉丁美洲。


本轮融资领投方 Andreessen Horowitz 的联合创始人兼总合伙人 Ben Horowitz 表示:“没有其他公司像 Databricks 一样如此成功地将开源软件商业化。我们都见证了 Apache Spark 作为大数据处理标准的强势发展。毫不意外,我们将继续看到该团队在开源上做出更多创新,包括 Delta Lake、MLflow 和 Koalas。”

关于 Databricks

Databricks 由 Apache Spark 的创始成员创立,而 Apache Spark 是由加州大学伯克利分校 AMPLab 基于 Scala 开发的一个开源分布式通用集群计算框架,从 2014 年左右开始得到广泛关注,经过几年发展逐渐成为大数据处理的事实标准。虽然 Spark 仍然是 Databricks 的一个关键产品,但现在只是 Databricks 所做的众多事情中的一小部分。如今 Databricks 已将重点转向机器学习。

开源 MLflow

MLflow是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的开源新平台,旨在为数据科学家构建、测试和部署机器学习模型的复杂过程做一些简化工作。有了 MLflow,数据科学家就可以在本地(笔记本电脑)或远程(云端)跟踪和共享机器学习实验、跨框架打包和共享模型,并几乎可以在任何地方部署模型。


作为一家大数据解决方案公司,Databricks 与数百家使用机器学习的公司合作,所以能够清楚地了解他们的痛点,比如工具太过复杂、难以跟踪实验、难以重现结果、难以部署模型。由于这些挑战的存在,机器学习开发必须变得与传统软件开发一样强大、可预测和普及。为此,很多企业已经开始构建内部机器学习平台来管理机器学习生命周期。例如,Facebook、谷歌和优步分别构建了 FBLearner Flow、TFX 和 Michelangelo 来进行数据准备、模型训练和部署。但这些内部平台存在一定的局限性:典型的机器学习平台只支持一小部分内置算法或单个机器学习库,并且被绑定在公司内部的基础设施上。用户无法轻易地使用新的机器学习库,或与社区分享他们的工作成果。


Databricks 认为应该使用一种更好的方式来管理机器学习生命周期,于是他们推出了 MLflow。MLflow 主要包含了三个组件:



跟踪组件支持记录和查询实验数据,如评估度量指标和参数;项目组件提供可重复运行的简单包装格式;而模型组件则提供用于管理和部署模型的工具。


自一年前发布第一个版本以来,MLflow 已经被数千个组织所采用。它被用于管理机器学习工作负载,一些服务平台(如 Databricks)还提供了 MLflow 服务。MLflow 社区已经有 100 多名贡献者,MLflow PyPI 包的下载频率已接近每月 60 万次。MLflow 1.0 已于今年 6 月正式发布,这一版本不仅标志着 API 的成熟和稳定,还增加了很多新特性和改进。

开源 Delta Lake

Delta Lake 由 Databricks 在今年年初开源,该项目旨在与社区共同打造一个开放标准,以管理数据湖中的大量数据,并不断提高数据湖的可靠性、质量和性能。Delta Lake为 Apache Spark 和其他大数据引擎提供可伸缩的 ACID 事务,让用户可以基于 HDFS 和云存储构建可靠的数据湖。此外,Delta Lake 还提供了内置的数据版本控制,可以方便地回滚以及重新生成报告。目前 Delta Lake 已经被成千上万的组织采用,包括 Intel、阿里巴巴、Booz Allen Hamilton 都是其开源生态一员。


近日,在荷兰阿姆斯特丹举行的 Spark+AI 欧洲峰会上,DataBricks 和 Linux 基金会联合宣布,开源项目 Delta Lake 正式成为 Linux 基金会的托管项目。



Delta Lake 提供的主要功能包括:


  • ACID 事务:Delta Lake 提供多个写操作之间的 ACID 事务。每个写操作都是一个事务,事务日志中记录的写操作有一个串行顺序。事务日志会跟踪文件级的写操作,并使用乐观并发控制,这非常适合数据湖,因为尝试修改相同文件的多个写操作并不经常发生。在存在冲突的场景中,Delta Lake 会抛出一个并发修改异常,以便用户处理它们并重试它们的作业。Delta Lake 还提供了强大的序列化隔离级别,允许工程师不断地对目录或表进行写操作,而用户可以不断地从相同的目录或表中读取数据。读取者将看到读操作开始时存在的最新快照。

  • 模式管理:Delta Lake 会自动验证正在写入的 DataFrame 模式是否与表的模式兼容。表中存在但 DataFrame 中不存在的列会被设置为 null。如果 DataFrame 中有额外的列在表中不存在,那么该操作将抛出异常。Delta Lake 具有可以显式添加新列的 DDL 和自动更新模式的能力。

  • 可伸缩的元数据处理:Delta Lake 将表或目录的元数据信息存储在事务日志中,而不是存储在元存储(metastore)中。这使得 Delta Lake 能够在固定的时间内列出大型目录中的文件,并且在读取数据时非常高效。

  • 数据版本控制和时间旅行:Delta Lake 允许用户读取表或目录先前的快照。当文件在写期间被修改时,Delta Lake 将创建文件的新版本并保存旧版本。当用户希望读取表或目录的旧版本时,他们可以向 Apache Spark 的读操作 API 提供一个时间戳或版本号,Delta Lake 根据事务日志中的信息构建该时间戳或版本的完整快照。这使得用户可以重新进行试验并生成报告,如果需要,还可以将表还原为旧版本。

  • 统一的批处理和流接收(streaming sink):除了批处理写之外,Delta Lake 还可以使用 Apache Spark 的结构化流作为高效的流接收。再结合 ACID 事务和可伸缩的元数据处理,高效的流接收现在支持许多接近实时的分析用例,而且无需维护复杂的流和批处理管道。

  • 记录更新和删除(即将到来):Delta Lake 将支持合并、更新和删除 DML 命令。这使得工程师可以轻松地维护和删除数据湖中的记录,并简化他们的变更数据捕获和 GDPR 用例。由于 Delta Lake 在文件粒度上跟踪和修改数据,因此,比读取和覆写整个分区或表要高效得多。

  • 数据期望(即将到来):Delta Lake 还将支持一个新的 API,用于设置表或目录的数据期望。工程师将能够通过指定布尔条件及调整严重程度来处理数据期望。当 Apache Spark 作业写入表或目录时,Delta Lake 将自动验证记录,当出现违规时,它将根据所预置的严重程度处理记录。


2019-10-23 09:265236

评论

发布
暂无评论
发现更多内容

线程池遇到父子任务,有大坑,要注意!

快乐非自愿限量之名

数据库 线程池

第59期|GPTSecurity周报

云起无垠

对话天润融通首席科学家:大模型的首要任务是为客户创造商业价值

天润融通

人工智能

【YashanDB知识库】字段加上索引后,SQL查询不到结果

YashanDB

yashandb 崖山数据库 崖山DB

足球与AI,开创足球预测新纪元

Geek_a17c4b

数据挖掘 机器学习 深度学习 AI 足球

Microsoft Remote Desktop Beta for Mac(微软远程连接工具

Mac相关知识分享

天润融通微藤大模型,如何助力市场部构建企业增长飞轮?

天润融通

ISP代理与住宅代理的主要区别

IPIDEA全球HTTP

技术 ISP 代理IP

从IDC数据中心到云再到智算中心,苏州IDC决胜算力新时代

苏州服务器托管

数据中心

直播预约丨《指标体系建设实战》第四期:如何构建全面的指标管理体系

袋鼠云数栈

大数据 指标体系 指标管理 指标中台 指标建设

SD-WAN能否优化SaaS访问体验?

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

拼多多商品详情数据接口全解析:获取商品信息的高效途径

tbapi

拼多多 拼多多商品详情数据接口 拼多多API 拼多多商品数据采集

InfoQ对话天润融通CTO|AI时代,开发者的机遇与挑战?

天润融通

人工智能

Charles for Mac(HTTP协议抓包工具) v5.0b12版

Mac相关知识分享

【YashanDB知识库】用户密码带@字符时exp和imp无法使用

YashanDB

yashandb 崖山数据库 崖山DB

软件测试学习笔记丨XML响应断言

测试人

软件测试

软件测试学习笔记丨Cookie处理

测试人

软件测试

客户在哪儿AI让ToB全面了解竞争对手、赢得竞争

客户在哪儿AI

ToB营销 ToB增长 ToB销售

Web 开发者必备:最推荐的工具清单

Liam

程序员 前端 Web

Sentieon | 应用教程:唯一分子标识符(UMI)

INSVAST

基因测序 基因数据分析 生信服务

Microsoft NTFS for Mac by Tuxera 2022 for macNTFS磁盘格式读写

Mac相关知识分享

Mac软件 软件下载

Sketch for mac(专业矢量绘图设计软件)v99.1中文版

Mac相关知识分享

设计工具

软件测试学习笔记丨接口请求体-xml

测试人

软件测试

常见接口安全测试工具介绍:ZAP、Burp Suite、SQLMap 等知名安全测试工具

测吧(北京)科技有限公司

测试

Burp Suite:黑客与白帽子最常用的安全测试工具详解

测吧(北京)科技有限公司

测试

Paste for Mac(剪切板历史管理工具) v4.1.2中文版

Mac相关知识分享

闲鱼开发者必读:闲鱼商品详情数据接口完全指南

tbapi

闲鱼API 闲鱼商品详情数据接口 闲鱼商品数据采集 闲鱼平台API接口 闲鱼商品详情API

开发国际化的体育直播平台:现成源码与定制开发的选择

软件开发-梦幻运营部

网络加速解决方案:实现企业网络高效访问

Ogcloud

网络加速 CDN加速 企业组网 海外网络加速

如何选择适合您团队的缺陷跟踪工具?

爱吃小舅的鱼

缺陷跟踪管理 缺陷管理软件推荐

Linux多线程

不在线第一只蜗牛

Linux 运维 多线程 服务器

半年估值翻番达62亿美元:大数据初创公司Databricks再获4亿融资_语言 & 开发_蔡芳芳_InfoQ精选文章