写点什么

数据预备管道:策略、选择和工具

  • 2017-04-19
  • 本文字数:744 字

    阅读完需:约 2 分钟

数据预备是数据处理和数据分析的一个重要组成部分。业务分析师和数据科学家把 80% 的时间花在收集数据和准备数据上,而不是用于分析数据或开发机器学习模型。Kelly Stirman 在上周举行的 2017 企业数据世界大会上分享了有关数据预备的最佳实践。

Kelly 解释了数据预备与数据集成之间的不同点。数据预备一般是由业务分析师来完成的,他们使用 Alteryx Trifacta Paxata 这类工具进行数据预备。而数据集成是一个 IT 工具,一般由 IT 团队来完成,他们会使用 Informatic 、SAS、SQL 或者来自 IBM 的集成工具进行数据集成。

数据集成已经很成熟也很健壮,并已经与企业标准、安全和监管控制集成到一起。数据集成是基于服务器的,所以一般是集中式的,并且具有可伸缩性。不过它也有一些限制,它只是面向 IT 人员,对数据的质量要求不高。对于企业来说,数据集成已经很成熟,但是对于云平台、第三方应用、 Hadoop 和 NoSQL 数据库来说还没有达到相同的成熟度。

相反,数据预备更看重速度、易用性,并能够以更快的速度创造价值。它是基于以数据为中心的模型(相对于以元数据为中心的模型),同时适用于 IT 人员和业务人员。它支持不同的数据处理环境,如 Hadoop、NoSQL 数据库、云平台,以及机器学习。它的局限性体现在:不成熟的技术栈、有限的集成和技能生态系统、不完整的安全集成,以及对 IT 和协调流程的依赖。

Kelly 分别为业务人员、数据科学家和软件开发人员介绍了各种开源和商业工具,并比较了这些工具的优点和缺点。其中的开源工具 Apache Spark Pandas (Python)和 dplyr (R)可以帮助数据科学家和开发人员进行数据预备。

在选择数据预备解决方案和工具时,可以考虑如下因素:可用性、协作、许可模型、监管、复杂性、供应商以及生态系统。

查看英文原文: Data Preparation Pipelines: Strategy, Options and Tools

2017-04-19 19:001488
用户头像

发布了 322 篇内容, 共 143.3 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

windows使用docker运行mysql等工具(一)windows安装docker

Java旅途

MySQL Docker

太赞了!一份适合程序员的精选面试题清单。

JackTian

GitHub 开源 编程 程序员 面试

手写单例模式

yupi

Zookeeper集群模式启动

tunsuy

zookeeper 源码分析 socket 分布式集群

架构师训练营第四周

Melo

架构师训练营第三周作业和小记

tuuezzy

架构师 极客大学架构师训练营

【非原创】微服务设计

Axe

区块链改变数字营销与广告市场

CECBC

区块链技术 广告业 精准投放 去中介 公开透明

极客大学架构师训练营 框架开发 第三次作业

John(易筋)

极客时间 设计模式 极客大学 极客大学架构师训练营 框架开发

第三周作业

晨光

Zookeeper通信协议详解

tunsuy

zookeeper TCP/IP 通信协议

极客大学架构师训练营 框架开发 模式与重构 JUnit、Spring、Hive核心源码解析 第6课

John(易筋)

spring 极客时间 极客大学 极客大学架构师训练营 JUnit

数字货币监管当体现“中国之治”

CECBC

数字货币 CECBC 区块链技术 技术标准 准入和监管

让你眼前一亮的 10 大 TS 项目

阿宝哥

Java typescript 开源 大前端 Web

一个汉字占几个字节你真的记住了吗?

Java旅途

第三周总结

晨光

rodert单排学习redis进阶【白银一】

JavaPub

Java nosql redis

架构师是怎样炼成的-3-2-设计模式

闷骚程序员

产品失败了,产品经理要不要承担责任?

涛哥 数字产品和业务架构

产品经理

组合模式应用

yupi

[架构师训练营] Week01 -学习总结

谭方敏

架构师训练营 第三周 学习总结

RZC

组合设计模式编码&手写单例模式

吴建中

极客大学架构师训练营

Oracle SQL调优系列之看懂执行计划explain

Nicky.Ma

sql

良心推荐 | LeetCode(力扣),算法、数据结构的学习良伴

YoungZY

算法

架构师训练营 第三周 命题作业

RZC

第三周手写单例模式(饿汉模式)

吴建中

极客大学架构师训练营

windows使用docker运行mysql等工具(二)安装运行mysql

Java旅途

MySQL Docker

面向对象设计模式课程小结

梅子黄时雨

极客大学架构师训练营

Zookeeper的数据剖析

tunsuy

zookeeper 日志分析 事务 快照 数据恢复

第三周-设计模式-学习总结

吴建中

极客大学架构师训练营

数据预备管道:策略、选择和工具_大数据_Srini Penchikala_InfoQ精选文章