数据预备管道：策略、选择和工具

数据预备是数据处理和数据分析的一个重要组成部分。业务分析师和数据科学家把 80% 的时间花在收集数据和准备数据上，而不是用于分析数据或开发机器学习模型。Kelly Stirman 在上周举行的 2017 企业数据世界大会上分享了有关数据预备的最佳实践。

Kelly 解释了数据预备与数据集成之间的不同点。数据预备一般是由业务分析师来完成的，他们使用 Alteryx 、 Trifacta 和 Paxata 这类工具进行数据预备。而数据集成是一个 IT 工具，一般由 IT 团队来完成，他们会使用 Informatic 、SAS、SQL 或者来自 IBM 的集成工具进行数据集成。

数据集成已经很成熟也很健壮，并已经与企业标准、安全和监管控制集成到一起。数据集成是基于服务器的，所以一般是集中式的，并且具有可伸缩性。不过它也有一些限制，它只是面向 IT 人员，对数据的质量要求不高。对于企业来说，数据集成已经很成熟，但是对于云平台、第三方应用、 Hadoop 和 NoSQL 数据库来说还没有达到相同的成熟度。

相反，数据预备更看重速度、易用性，并能够以更快的速度创造价值。它是基于以数据为中心的模型（相对于以元数据为中心的模型），同时适用于 IT 人员和业务人员。它支持不同的数据处理环境，如 Hadoop、NoSQL 数据库、云平台，以及机器学习。它的局限性体现在：不成熟的技术栈、有限的集成和技能生态系统、不完整的安全集成，以及对 IT 和协调流程的依赖。

Kelly 分别为业务人员、数据科学家和软件开发人员介绍了各种开源和商业工具，并比较了这些工具的优点和缺点。其中的开源工具 Apache Spark 、 Pandas （Python）和 dplyr （R）可以帮助数据科学家和开发人员进行数据预备。

在选择数据预备解决方案和工具时，可以考虑如下因素：可用性、协作、许可模型、监管、复杂性、供应商以及生态系统。

查看英文原文： Data Preparation Pipelines: Strategy, Options and Tools

创作场景

数据预备管道：策略、选择和工具