AICon 上海站|90%日程已就绪,解锁Al未来! 了解详情
写点什么

25 个流行的数据工具以及他们的短板

作者:Pete Soderling等人

  • 2020-05-28
  • 本文字数:3353 字

    阅读完需:约 11 分钟

25个流行的数据工具以及他们的短板

如今快速发展的数据生态系统中有数十种新工具。这些工具以一种高效、令人惊讶的方式在数据工作方面相继绽放。未来数十年数据领域相关工作的种子已经播下,并将疯狂生长。但在如今的数据生态中,存在一个理解误区,即使许多工具中的一些工具并不具备什么竞争力,它们也会被认为是具有竞争力的好工具。这种现象并不奇怪,主要影响因素包括:


  • 各种工具之间有很多重叠功能,这种情况的部分因素是因为每种工具都有其特定擅长的领域及功能,它们通常是通过合作来完成某个完整功能;

  • 增长轨迹和类别边界仍然不确定;

  • 即使在某个特定领域,也不存在完全能胜任该领域的单一工具;

  • 企业家在推介风投和销售产品时都倾向于讲“大故事”;


这种理解误区对试图集中精力的工具制造者很不利,对试图评估市场的投资者不利,尤其对于试图利用最佳新工具来构建具有生产力的数据堆栈的数据科学家和工程师而言,尤其不利。


为了研究这个问题,我们对数据生态中的数十个开源工具进行了研究,并提出了下面两个问题:


  1. 该工具独一无二的能力是什么?

  2. 该工具不能用来做什么?


我们调研的范围仅限于开源项目和 Pre-B 轮融资阶段的公司的产品。针对每个工具,我们尽可能简短的对这两个问题进行了回答。数据生态中的工具混乱的现象并不会很快消失,但我们希望这篇文章是一个好的开始。


下面是这些工具的介绍:


  1. Great Expectataions / Superconductive: Great Expectations 是专门用于测试数据系统以及创建测试文件的专用工具。Great Expectations 也可以用于数据分析。Greata expectations 是高度可热插入和可扩展的,并且完全开源。但是,它并不是一个管道执行框架或数据可视化工具。

  2. Databand:Databand 是一个数据化运维(DataOps)解决方案,它专门用于监控产品管道和检测工作流代码、数据或系统层面的事件,同时它还可以帮助工程师对问题进行根本原因分析(root cause nalysis, RCA)。但针对管道协调、数据质量测试或者数据版本控制,Databand 不能作为一个单点解决方案。

  3. Dolt / Liquidata:Dolt 是一个基于 Git 版本控制的 SQL 数据库,因此你可以像使用 Git 一样对 Dolt 进行提交、克隆、拉取、分支和合并等操作。Dolt 是专门用于数据共享的工具,但 Dolt 不能专门用于某种特定的数据操作,如特征储存或数据转移。Dolt 是可用于这些数据操作的一种通用数据库。

  4. Bayes:Bayes 是一个可视化的具有探索性的数据分析工具。它会指导你进行建议的可视化操作,并通过基于交互式叙述的报告轻松实现具有可解释性的共享。Bayes 不是一个商业化的智能面板,也不是面向程序员的基于代码的笔记本。

  5. Hex:Hex 是一个具有计算能力的笔记本平台,它专门用于数据共享。用户可以连接到数据,进行分析,然后轻松地构建一个具有完全交互能力的应用程序,并且组织中的所有人都可以使用这种完全的交互。但是 Hex 并不能作为一个机器学习工程平台或制图工具来使用。

  6. Sisu Data:Sisu 是一个主动分析平台,非常适合快速浏览复杂的企业数据并帮助数据分析师解释关键业务指标为何在变化。Sisu 可以在几秒钟内测试数十亿个假设,并引导用户找到影响程度最大的变化因子。但 Sisu 既不能作为预测工具或模型构建工具,也不能作为描述性面板。

  7. Ascend:Ascend 专门用于使用更少的代码来构建、运行和优化云数据管道。Ascend 将数据连接到它的代码,从而通过自动维护、数据摘要分析、沿袭跟踪、成本优化等方式来建立声明性的数据管道。Ascend 不是一个通用的 Spark 解决方案,而是位于上层的数据工程平台。

  8. Dataform:Dataform 擅长于帮助你管理数据仓库中的数百个数据集。Dafaform 帮助团队将原始数据转化为一组定义明确、可通过测试且可归档化的数据集以进行分析。Dataform 不能作为提取工具使用。

  9. DataKitchen: DataKitchen 是一个 DataOps 流程工具,非常适合将连续部署、可观察性、测试和环境管理带入复杂的数据科学及分析领域。DataKitchen 能够自动执行分析创建和部署工作流、管道执行、代码和数据测试、以及管道监视和维护。但 DataKitchen 不是数据科学、ETL 或专用的排版工具。

  10. Snorkel:Snorkel 是一个用于以编程方式构建训练数据建库的平台。在 Snorkel 中,用户可以直接编写标记函数,而无需手动标记数据。Snorkel 不能用于无监督学习,它是一个人机回圈(human-in-the-loop)平台,致力于从根本上加速用户将其领域知识注入机器学习(Machine Leaningb,ML)模型的过程。

  11. Transform(stealth):Transform 旨在构建一个度量标准存储库,以确保企业能够以标准化、格式化、有组织的方式捕获标准化的度量定义,从而进行流线分析并进行决策。 Transform 不是数据管道框架或商业智能工具。

  12. Materialize:Materialize 擅长在流数据之上执行和维护 PostgreSQL 查询,并以毫秒级的延迟保持最新状态。Materialize 不是时间序列数据库或其他流式微服务平台。

  13. DataHub / Linkedln:DataHub 是一个由元数据支持的搜索和发现程序,旨在提高 AI 和数据科学的生产效率。它具有独特的分布式流优先元数据体系结构,已使其在 LinkedIn 的人脉和大数据上获得成功。它不是数据集成或处理工具,也不是用于运行数据质量检查的协调器。

  14. Prefect:Prefect 是一种工作流程编排工具,可让用户使用纯 Python API 定义任务流,并使用可扩展基础结构轻松部署它们。 Prefect 可提供建立健壮管道所需的语义,例如重试,日志记录,缓存,状态转换回调,故障通知等。 Prefect 不是无代码工具或基础结构提供程序。

  15. Marad / Project A:Mara 旨在将 SQL,Bash 和 Python 脚本组合到管道中。 从命令行或通过 Web UI 运行管道。Mara 不是调度、数据移动或依赖关系检测工具。

  16. dbt / Fishtown Analytics:dbt 擅长在数据仓库中创建、维护和记录基于 SQL 业务逻辑的数据库可用性组(Database Availability Group,DAG)。不过 dbt 不是通用的工作编排器。

  17. Watchful:Watchful 主要用于在无标注人工的情况下,快速创建大规模、高质量且带有概率标签的训练数据。通过 Watchful,你可以通过反馈机制快速构建、测试和原型化模型。

  18. Preset:Preset 是 Apache Superset 的制造商设计的基于 SaaS 的数据探索和可视化平台。 Preset 用于可视化和数据消耗分析,它不是计算或编排平台。

  19. Kedro:Kedro 是一个针对数据和 ML 管道的最棒的软件。 Kedro 使用可重现的分析工作流程,I/O 抽象和管道建模,实现了从实验到生产的无缝过渡。Kedro 不是工作流协调器或实验跟踪框架。

  20. Toro Data:Toro 擅长于帮助团队在其数据上部署相应的监视,同时它还会提供建议监视的内容并使其易于执行而无需编写和部署代码。Toro 不会清理或改变数据,也不会原生地控制管道或工作流流。

  21. Tecton:Tecton 非常适合于策划和服务产品功能。Tecton 不是数据处理引擎(例如 Spark)或模型管理工具。 相反,它利用现有的数据处理引擎来处理原始批、流、实时数据,将其转换为功能,并部署这些功能以进行训练和提供服务。

  22. Dagster / Elementl:Dagster 是一个数据协调器,擅长为本地开发、测试、部署和操作构建数据应用程序。Dagster 管道组件可以使用任何语言或框架进行创作,并通过通用元数据和工具组合在一起以形成统一的数据应用程序。Dagster 不是处理引擎,也不是数据或对象仓库。

  23. Select Star:Select Star 是用于解决数据发现问题的数据目录和管理工具。 它在帮助你理解数据方面具有独特的优势,例如提供以下这些信息:你拥有什么数据、数据的存放位置、数据结构以及使用方式。Select Star 不提供 SQL 客户端或 ETL(Extract-Transform-Load)处理。

  24. Monte Carlo(stealth):Monte Carlo 是一个数据可靠性分析平台,其中包括数据监视、故障排除和事件管理。Monte Carlo 不是测试框架、管道或版本控制工具。

  25. Flyte / Lyft:Flyte 专门用于开发可扩展的、容器原生的可复验的管道,这些管道连接不同的分布式系统,同时使数据流处于前部和中心。Flyte 不是机器学习平台,但可以作为其核心组件之一。


通过编制这份清单,一方面是为了赞扬这些惊人的工具、其创始人和 OSS 领导者,是他们推动了我们的数据工具生态系统的发展。 另一方面,我们希望在社区展开关于这些工具的局限性的有益的讨论。我们希望本文能够为数据工具生态提供有益的启示,并希望它们继续蓬勃发展。


原文链接:


https://medium.com/@petesoder/25-hot-new-data-tools-and-what-they-dont-do-31bf23bd8e56


2020-05-28 09:334043

评论

发布
暂无评论
发现更多内容

架构中实时引擎与离线渲染的主要优势

3DCAT实时渲染

Unity 渲染 实时渲染 AEC

华为云对象存储,助力企业驶入“数据快车道”

清欢科技

支持故障自动秒级检测,华为云VPN更省心!

IT科技苏辞

敏捷技术实践之重构

华为云PaaS服务小智

企业内部使用的即时通讯软件有哪些?

BeeWorks

不止于大,华为云对象存储服务OBS的全能一面

清欢科技

华为云OBS对象存储:企业“上云”的好帮手

清欢科技

解决“双十一”电商行业数据存储难题,华为云OBS值得期待

清欢科技

FL STUDIO2023最新版本号21新变化

茶色酒

FL STUDIO20.9 FL Studio FL Studio 21

存储数据如何更省钱?华为云告诉你!

清欢科技

还在为数据存储而烦恼?不妨进来看看华为云对象存储服务OBS

清欢科技

华为云对象储存OBS,为企业提供优秀且安全的数据储存环境

清欢科技

HTTP的四种认证方式

穿过生命散发芬芳

HTTP 12月月更

【冲破信息孤岛】华为云大数据BI,助力金融行业进行数字化转型

秃头也爱科技

大数据一站式服务,华为云大数据BI驱动企业业务线增长

秃头也爱科技

提升企业决策能力,华为云用大数据BI助力企业腾飞

秃头也爱科技

什么是云仿真,云仿真平台有哪些好处

3DCAT实时渲染

虚拟仿真 实时云渲染 云仿真 三维仿真

云渲染和自己的电脑渲染哪个好?

Renderbus瑞云渲染农场

云渲染

软硬协同造就极致性能 天翼云紫金DPU打造为云而生的全新一代云计算体系结构

极客天地

阿根廷夺冠梅西加冕,球场外视频平台角逐世界杯

易观分析

视频 足球 卡塔尔世界杯

即时通讯软件WorkPlus助力政企应用快速移动化

BeeWorks

中国电信发布《天翼云安全白皮书》 打造高质量云网安全保障体系

极客天地

推动企业稳定发现,华为云大数据助力能源企业纾困

秃头也爱科技

华为云对象存储OBS,助力企业降本增效

清欢科技

跨浏览器测试策略

FunTester

海量、安全、高可靠的华为云对象存储服务OBS,助力企业数据存储降本提效

清欢科技

RayLink测评 | 完全免费,功能超越同类付费远程控制软件!!

RayLink远程工具

远程控制软件 远程办公软件 远控软件

打碎软件应用,在产业互联场景中串联—钉钉7.0关注企业间高效协同

B Impact

2022-12-30:某天小美进入了一个迷宫探险,根据地图所示,这个迷宫里有无数个房间 序号分别为1、2、3、...入口房间的序号为1 任意序号为正整数x的房间,都与序号 2*x 和 2*x + 1

福大大架构师每日一题

算法 rust 福大大

BI-数据可视化 | 年度干货合集

搞大屏的小北

数据可视化工具 BI 分析工具 BI分析 市场分析

Android程序签名打包

芯动大师

Android Studio 打包签名 签名的含义

25个流行的数据工具以及他们的短板_大数据_InfoQ精选文章