写点什么

数据预备管道:策略、选择和工具

  • 2017-04-19
  • 本文字数:744 字

    阅读完需:约 2 分钟

数据预备是数据处理和数据分析的一个重要组成部分。业务分析师和数据科学家把 80% 的时间花在收集数据和准备数据上,而不是用于分析数据或开发机器学习模型。Kelly Stirman 在上周举行的 2017 企业数据世界大会上分享了有关数据预备的最佳实践。

Kelly 解释了数据预备与数据集成之间的不同点。数据预备一般是由业务分析师来完成的,他们使用 Alteryx Trifacta Paxata 这类工具进行数据预备。而数据集成是一个 IT 工具,一般由 IT 团队来完成,他们会使用 Informatic 、SAS、SQL 或者来自 IBM 的集成工具进行数据集成。

数据集成已经很成熟也很健壮,并已经与企业标准、安全和监管控制集成到一起。数据集成是基于服务器的,所以一般是集中式的,并且具有可伸缩性。不过它也有一些限制,它只是面向 IT 人员,对数据的质量要求不高。对于企业来说,数据集成已经很成熟,但是对于云平台、第三方应用、 Hadoop 和 NoSQL 数据库来说还没有达到相同的成熟度。

相反,数据预备更看重速度、易用性,并能够以更快的速度创造价值。它是基于以数据为中心的模型(相对于以元数据为中心的模型),同时适用于 IT 人员和业务人员。它支持不同的数据处理环境,如 Hadoop、NoSQL 数据库、云平台,以及机器学习。它的局限性体现在:不成熟的技术栈、有限的集成和技能生态系统、不完整的安全集成,以及对 IT 和协调流程的依赖。

Kelly 分别为业务人员、数据科学家和软件开发人员介绍了各种开源和商业工具,并比较了这些工具的优点和缺点。其中的开源工具 Apache Spark Pandas (Python)和 dplyr (R)可以帮助数据科学家和开发人员进行数据预备。

在选择数据预备解决方案和工具时,可以考虑如下因素:可用性、协作、许可模型、监管、复杂性、供应商以及生态系统。

查看英文原文: Data Preparation Pipelines: Strategy, Options and Tools

2017-04-19 19:001426
用户头像

发布了 322 篇内容, 共 141.4 次阅读, 收获喜欢 146 次。

关注

评论

发布
暂无评论
发现更多内容

小程序的安全架构解析

Onegun

小程序 安全 小程序容器 小程序架构

今年互联网是“银二铜三铁四丐五”?程序员面试如何破局?

Java你猿哥

Java 架构 算法 多线程 java面试

兼顾可扩展、高并发与数据一致性:咸鱼优惠系统设计实践

Java你猿哥

Java 架构 ssm 架构设计 并发

全新问世!阿里内藏版的SpringBoot 2.5实战笔记,全面覆盖新特性

做梦都在改BUG

Java spring 微服务 Spring Boot 框架

百人研发团队百亿销售规模的技术架构实践分享

车江毅

大模型竞争白热化 这家广州的科技公司却开辟了新战场

科技热闻

intellij idea 粘贴字符串如何不带换行符?

源字节1号

微信小程序 开源 软件开发 前端开发 后端开发

阿里内部教材:15W字的SpringCloud微服务实战,我一口气给你打包

做梦都在改BUG

Java 架构 微服务 Spring Cloud

共识算法之Raft算法模拟数

TiAmo

算法 共识算法 模拟数

如何解决注册并发问题并提高QPS

北桥苏

队列 并发 Redis 核心技术与实战

【活动报名】PolarDB开源数据库&PG中文社区技术沙龙温州站

阿里云数据库开源

数据库 postgresql 阿里云 开源 polarDB

跨平台的Markdown编辑器:Typora for Mac中文版

真大的脸盆

GitHub发布即百万!字节内网超实用 java性能优化手册,star超十万

Java你猿哥

Java JVM ssm Java性能调优 java程序优化

重磅来袭!豆瓣评分9.2,万人血书的多线程与高并发v2.0版本

做梦都在改BUG

Java 多线程 高并发

MySQL百万数据深度分页优化思路分析

做梦都在改BUG

Java MySQL 数据库

GPT:低代码的终局性机遇

小博

人工智能 低代码 PaaS GPT

2023淘宝天猫金婴奖公布,小度学习机获年度超级新品奖!

科技热闻

做客《创新之路》,Tapdata 创始人唐建法对话央视著名主持人李雨霏,畅聊创业故事

tapdata

如何更好的分析潜在人脉?聊聊华为云图引擎GES的Cypher子查询

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 5 月 PK 榜

创业做共享电动车!如何找厂家合作

共享电单车厂家

共享电动车厂家 共享电单车厂商 共享电单车投放 共享电动车创业项目

大开眼界!Jenkins结合SpringCloud+K8S,打通微服一条龙技术讲解

做梦都在改BUG

Java Kubernetes k8s Spring Cloud jenkins

Spring Boot如何优雅提高接口数据安全性

做梦都在改BUG

Java spring Spring Boot

头部企业走入无人区,国产数智化厂商挑大梁

用友BIP

Last Week in Milvus

Zilliz

Milvus Zilliz 向量数据库

MLCC龙头涨价;车厂砍单芯片;台积电28nm设备订单全部取消!

元器件秋姐

芯片 汽车 资讯 新能源 MLCC

哪些技术有可能坐上智慧城市发展的快车

Onegun

智慧城市 小程序容器 数字城市

从GitHub火到头条!共计1658页的Java岗面试核心MCA版,拿走不谢

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

WebSocket与Socket、TCP、HTTP的区别

Apifox

程序员 TCP socket HTTP websocket

还在分不清各种IO模型?

Java你猿哥

Java Linux io I/O模型 Java IO

SpringBoot 结合 Liquibase 实现数据库变更管理

做梦都在改BUG

Java spring Liquibase

德邦快递:逆境之下,让数字化辅助业务的利润增长

Kyligence

数据分析 数字化管理 指标中台

数据预备管道:策略、选择和工具_大数据_Srini Penchikala_InfoQ精选文章