写点什么

数据预备管道:策略、选择和工具

  • 2017-04-19
  • 本文字数:744 字

    阅读完需:约 2 分钟

数据预备是数据处理和数据分析的一个重要组成部分。业务分析师和数据科学家把 80% 的时间花在收集数据和准备数据上,而不是用于分析数据或开发机器学习模型。Kelly Stirman 在上周举行的 2017 企业数据世界大会上分享了有关数据预备的最佳实践。

Kelly 解释了数据预备与数据集成之间的不同点。数据预备一般是由业务分析师来完成的,他们使用 Alteryx Trifacta Paxata 这类工具进行数据预备。而数据集成是一个 IT 工具,一般由 IT 团队来完成,他们会使用 Informatic 、SAS、SQL 或者来自 IBM 的集成工具进行数据集成。

数据集成已经很成熟也很健壮,并已经与企业标准、安全和监管控制集成到一起。数据集成是基于服务器的,所以一般是集中式的,并且具有可伸缩性。不过它也有一些限制,它只是面向 IT 人员,对数据的质量要求不高。对于企业来说,数据集成已经很成熟,但是对于云平台、第三方应用、 Hadoop 和 NoSQL 数据库来说还没有达到相同的成熟度。

相反,数据预备更看重速度、易用性,并能够以更快的速度创造价值。它是基于以数据为中心的模型(相对于以元数据为中心的模型),同时适用于 IT 人员和业务人员。它支持不同的数据处理环境,如 Hadoop、NoSQL 数据库、云平台,以及机器学习。它的局限性体现在:不成熟的技术栈、有限的集成和技能生态系统、不完整的安全集成,以及对 IT 和协调流程的依赖。

Kelly 分别为业务人员、数据科学家和软件开发人员介绍了各种开源和商业工具,并比较了这些工具的优点和缺点。其中的开源工具 Apache Spark Pandas (Python)和 dplyr (R)可以帮助数据科学家和开发人员进行数据预备。

在选择数据预备解决方案和工具时,可以考虑如下因素:可用性、协作、许可模型、监管、复杂性、供应商以及生态系统。

查看英文原文: Data Preparation Pipelines: Strategy, Options and Tools

2017-04-19 19:001371
用户头像

发布了 322 篇内容, 共 139.3 次阅读, 收获喜欢 145 次。

关注

评论

发布
暂无评论
发现更多内容

太慢是不行的

池建强

创业 产品

常用手机软件清单

彭宏豪95

效率工具 App 手机 移动应用

关于HSTS - 强制浏览器使用HTTPS与服务器创建连接

遇见

https 安全 浏览器 TLS 证书

死磕Java并发编程(6):从源码分析清楚AQS

Seven七哥

Java Java并发 并发编程 AQS

Zoom的加密算法,到底有什么问题?

X.F

算法 编码习惯 产品设计 安全 编程语言

最近的一些人生感悟

小智

人生 哲学

回"疫"录(1):口罩危机也许是一种进步

小天同学

疫情 回忆录 现实纪录

如何画一个闹钟

池建强

视觉笔记

我敢说 80% 的程序员都掉进了「老鼠赛跑」的陷阱

非著名程序员

读书笔记 程序员 程序人生 提升认知

【SpringBoot】为什么我的定时任务不执行?

遇见

Java Spring Boot 定时任务 debug

终极 Shell

池建强

Linux Shell

程序员陪娃看绘本之启示

孙苏勇

程序员 生活 读书 成长 陪伴

死磕Java并发编程(3):volatile关键字不了解的赶紧看看

Seven七哥

Java Java并发 volatile

【SpringBoot】给你的 CommandLineRunner 排个序

遇见

Java Spring Boot

软件世界中的个人英雄与团队协作

王泰

团队管理 软件工程 团队协作

写作平台使用感受

小天同学

产品 体验 反馈

个人知识管理精进指南

非著名程序员

学习 读书笔记 知识管理 认知提升

【SpringBoot】为什么我的 CommandLineRunner 不 run ?

遇见

Java Spring Boot

揭秘|为何程序员们能一直保持高收入?

丁长老

学习 程序员 写作 高薪

像经营咖啡店一样扩容 Web 系统

Rayjun

Web 扩容

Facebook在用户增长到5亿时的扩容策略

Rayjun

团队管理 扩容

软件工程的史前时代 -- Therac-25 事件

王泰

质量管理 软件工程 软件危机 软件测试

过滤数组中重复元素,你知道最优方案吗?

麦洛

数据结构 数组 数组去重

Nginx代理Oracle数据库连接

遇见

MySQL nginx oracle 反向代理

有关Kotlin Companion 我们需要了解到的几个知识点

王泰

Java 编程 kotlin 编程语言

敏捷(组织)转型的6个准备条件

Bob Jiang

团队管理 敏捷 组织转型

dubbo-go 中如何实现路由策略功能

joe

Apache 开源 微服务 dubbo Go 语言

Disruptor为何这么快

Rayjun

Java Disruptor

理性主义和实证主义

王泰

理性主义 实证主义 哲学 软件工程

用python爬虫保存美国农业部网站上的水果图片

遇见

Python GitHub 爬虫

回"疫"录(2):不知者无畏

小天同学

疫情 回忆录 现实纪录

数据预备管道:策略、选择和工具_大数据_Srini Penchikala_InfoQ精选文章