写点什么

微软发布 Azure 数据工厂

  • 2015-09-07
  • 本文字数:2076 字

    阅读完需:约 7 分钟

那些以数据为重心的云提供商正试图使其设施中的数据收集和存储变得更加容易。为了使云端和本地设备间的数据移动更方便,微软近期发布了ADF,即 Azure 数据工厂(Azure Data Factory)的通用版本。然而,这项按次付费的业务并没有作为专业的 ETL(Extract Transform Load)工具出现,而是定位成微软分析套件的一个组成部分。

在本月(2015 年 8 月)早些时候微软的一篇机器学习的博客中,微软的副总裁 Joseph Sirosh描述了 ADF 并且阐述了这项业务所带来的益处。

通过使用 ADF,现有的数据处理服务可以被编排成数据管道(data pipeline),随之可以在云端获得高可用性并且被管理。这些数据管道可以被调度以用于数据注入、准备、变换、分析和发布的场景,并且 ADF 还会对所有的复杂数据和处理中的依赖项进行管理和编排,从而无须人工干预。ADF 实现方案可以迅速创建并且部署到云端,它可以连接越来越多的本地和云端数据源。

通过使用 ADF,你的业务可以充分享用完全可管理的云服务的好处,而不必购买任何硬件;利用自动化的云资源管理可以减少成本;使用全球化部署的数据传输设施,你还可以高效地移动数据。你可以方便的监控和管理复杂的调度计划和数据依赖,所有这些都通过一个提供监控管理功能的直观的人机界面来实现,通过 Azure 门户你可以访问它。最后开发者还可以通过熟悉的 Visual Studio 插件快速地完成方案创建和部署。

ADF 通过由活动编排而成的管道来处理数据集。数据集(dataset)描述了给定数据存储中的数据结构,ADF 提供了很多数据存储的连接器,其中包括Azure SQL、Azure DocumentDB、本地SQL Server、本地Oracle 数据库、本地Teradata 数据库、本地MySQL 数据库等等。ADF 中的活动(activities)在给定的数据集上执行操作,操作可能是进行数据移动,也可能是完成数据转换。数据移动活动负责在数据端点间传送数据,比如从数据存储中拷贝数据数据转换活动获取原始数据并对其执行查询,ADF 中有七个可用的转换活动,它们中的大部分依赖基于Hadoop 的 Azure HDInsight 服务,包括:

为了访问本地端点,ADF 使用了被称为数据管理网关的工具。网关运行在本地的windows 服务器上,使用加密的证书作为凭证来访问本地的数据存储。外发的请求都在标准的HTTP 端口上完成。网关实例是和特定的数据工厂绑定的,并且网关实例也只能运行在给定的服务器上。所以,如果用户需要使用多个数据工厂服务,就需要使用一组服务器并在上面运行相应的网关。为了创建数据工厂,开发者可以使用Azure Portal(beta 版本)、PowerShell、Visual Studio 或者REST API。

图片来源: https://azure.microsoft.com/en-us/documentation/articles/data-factory-introduction/

ADF 是微软在 7 月发布的 Cortana 分析套件的一部分。套件中的其它产品包括 Azure Data Catalog、Azure Machine Learning、HDInsight、Power BI 和 Azure Stream Analytics。微软是如何计划将这些独立的服务集成到单独的套件中呢?在 ZDNet 关于 ADF 的文章中,Andrew Brust 解释了这个封装和集成是如何工作的。

ADF 通用版本定于“今年秋季的晚些时候”发布,并承诺为所有 Azure Big Data 和分析服务使用者提供单独的认购,相关价格也会在秋天发布。

微软还承诺为使用 Cortana Analytics 的客户带来更多的、集成的业界垂直解决方案。它们是些基本的用例模板和加速器,为包括制造、医疗保健和金融服务业在内的那些领域提供帮助。就其本身来说可能它们还不是很成熟的产品,也肯定无法组成真正的一体化服务,但它们仍然可以作为经典的案例,为如何一起使用这些服务提供帮助。

一些特定的服务已经完成了点到点的集成。比如,Azure Data Factory 已经可以连接到 Azure Stream Analytics,而后者也已经可以连接到 Event Hubs。Power BI 也知道如何同运行在HDInsight 上的Apache Spark 进行交互。而Azure Data Lake 则仿真了HDFS(Hadoop 的分布式文件系统),它支持与Power BI 中 Power Query 组件的原生连接。Azure SQL Data Warehouse 使用了微软 PolyBase 的技术作为其特性,这种技术也集成到 HDInsight 和其它 Hadoop 发行版本中。

微软看起来并不想将 ADF 服务作为传统的(云使能)ETL 产品,如同 Informatica 和 SnapLogic 那样。虽然 ADF 也可以执行一些类似的注入和转换功能,但它看起来主要定位在分析场景和从不相干的数据集中获取洞察。 ADF 的定价 基于其管道中的活动,而且根据活动发生频率是否频繁,活动是在云端还是在本地端点运行,收费也会有很大的不同。用户为数据移动支付的费用是以小时为基础的,而没有激活的管道只会有名义上的计费而无实际的支出。

如果要学习更多的东西,可以看一下产品的学习地图,或者读一下它的 FAQ

查看英文原文 Microsoft Releases Azure Data Factory

2015-09-07 19:002148

评论

发布
暂无评论
发现更多内容

进一步深挖工业数据价值

CECBC

数据安全;工业互联网

Accept-Language是什么? 就在身边,你却没看见的“冷知识”系列(不定期偶遇)

八苦-瞿昙

随笔杂谈 HTTP

甲方日常 61

句子

工作 随笔杂谈 日常

算力 | 手写红黑树

九叔(高翔龙)

数据结构 算法 二叉树 红黑树

修炼码德系列:简化条件表达式

Silently9527

Java 经验分享 代码重构 代码规范

《穿越数据的迷宫》笔记:中文版序二

方志

数据治理

EXCEL、图片处理常用技巧

jiangling500

Excel 图片处理

Serverless 应用引擎的远程调试和云端联调

阿里巴巴云原生

Java Serverless 云原生 后端

浅谈互斥锁与进程间的通信(举例说明)

ShenDu_Linux

Linux 程序员 架构师 进程线程区别

华为工程师又爆一份“架构师宝典”,价值百万薪“史诗级”操作系统,送你备战金三银四要不要?

编程 程序员 计算机网络 操作系统

架构第十一周作业

Nick~毓

《华为数据之道》读书笔记:第 10 章 未来已来:数据成为企业核心竞争力

方志

数字化转型 数据治理

年轻人快来学习TCP 协议如何解决粘包、半包问题!

程序员小灰

c++ Linux TCP 后台开发 Linux服务器开发

深入浅出 Go - sync.Pool 源码分析

helbing

Go 语言

Spring 源码学习 04:初始化容器与 DefaultListableBeanFactory

程序员小航

spring 源码 源码阅读

当居住空间被智能包裹:OTA智能社区改变了什么?

脑极体

GO训练营第2周总结

Glowry

关于Mysql常用数据类型的小抄

xzy

MySQL

冰河教你一次性成功安装K8S集群(基于一主两从模式)

冰河

Docker 云原生 k8s

《穿越数据的迷宫》笔记:第1章 数据管理的重要性

方志

数据治理

为什么边缘计算将终止云计算?

VoltDB

数据库 云计算 数据分析 边缘计算

Appium之测试微信小程序

清菡软件测试

App

线程池 ForkJoinPool 简介

Java老k

Java 线程池 forkjoinpool 工作窃取

AnyRTC --- Flutter 实现视频通话

anyRTC开发者

flutter 音视频 WebRTC 跨平台 sdk

Linux常用命令速查

jiangling500

linux命令

数字货币将带来怎样的“革命”

CECBC

数字货币 货币

区块链在国际贸易领域应用的法律问题

CECBC

区块链

爆买剁手之后,我们的快乐为什么越来越贬值?

脑极体

《视觉系统中的深度学习》PDF及源代码免费下载

计算机与AI

学习 计算机视觉

创业项目快速分析框架

boshi

创业 商业

智能新时代 安全新未来 首届国网北京电力人工智能数据竞赛正式启动

极客播报

微软发布Azure数据工厂_DevOps & 平台工程_Richard Seroter_InfoQ精选文章