写点什么

微软发布 Azure 数据工厂

  • 2015-09-07
  • 本文字数:2076 字

    阅读完需:约 7 分钟

那些以数据为重心的云提供商正试图使其设施中的数据收集和存储变得更加容易。为了使云端和本地设备间的数据移动更方便,微软近期发布了ADF,即 Azure 数据工厂(Azure Data Factory)的通用版本。然而,这项按次付费的业务并没有作为专业的 ETL(Extract Transform Load)工具出现,而是定位成微软分析套件的一个组成部分。

在本月(2015 年 8 月)早些时候微软的一篇机器学习的博客中,微软的副总裁 Joseph Sirosh描述了 ADF 并且阐述了这项业务所带来的益处。

通过使用 ADF,现有的数据处理服务可以被编排成数据管道(data pipeline),随之可以在云端获得高可用性并且被管理。这些数据管道可以被调度以用于数据注入、准备、变换、分析和发布的场景,并且 ADF 还会对所有的复杂数据和处理中的依赖项进行管理和编排,从而无须人工干预。ADF 实现方案可以迅速创建并且部署到云端,它可以连接越来越多的本地和云端数据源。

通过使用 ADF,你的业务可以充分享用完全可管理的云服务的好处,而不必购买任何硬件;利用自动化的云资源管理可以减少成本;使用全球化部署的数据传输设施,你还可以高效地移动数据。你可以方便的监控和管理复杂的调度计划和数据依赖,所有这些都通过一个提供监控管理功能的直观的人机界面来实现,通过 Azure 门户你可以访问它。最后开发者还可以通过熟悉的 Visual Studio 插件快速地完成方案创建和部署。

ADF 通过由活动编排而成的管道来处理数据集。数据集(dataset)描述了给定数据存储中的数据结构,ADF 提供了很多数据存储的连接器,其中包括Azure SQL、Azure DocumentDB、本地SQL Server、本地Oracle 数据库、本地Teradata 数据库、本地MySQL 数据库等等。ADF 中的活动(activities)在给定的数据集上执行操作,操作可能是进行数据移动,也可能是完成数据转换。数据移动活动负责在数据端点间传送数据,比如从数据存储中拷贝数据数据转换活动获取原始数据并对其执行查询,ADF 中有七个可用的转换活动,它们中的大部分依赖基于Hadoop 的 Azure HDInsight 服务,包括:

为了访问本地端点,ADF 使用了被称为数据管理网关的工具。网关运行在本地的windows 服务器上,使用加密的证书作为凭证来访问本地的数据存储。外发的请求都在标准的HTTP 端口上完成。网关实例是和特定的数据工厂绑定的,并且网关实例也只能运行在给定的服务器上。所以,如果用户需要使用多个数据工厂服务,就需要使用一组服务器并在上面运行相应的网关。为了创建数据工厂,开发者可以使用Azure Portal(beta 版本)、PowerShell、Visual Studio 或者REST API。

图片来源: https://azure.microsoft.com/en-us/documentation/articles/data-factory-introduction/

ADF 是微软在 7 月发布的 Cortana 分析套件的一部分。套件中的其它产品包括 Azure Data Catalog、Azure Machine Learning、HDInsight、Power BI 和 Azure Stream Analytics。微软是如何计划将这些独立的服务集成到单独的套件中呢?在 ZDNet 关于 ADF 的文章中,Andrew Brust 解释了这个封装和集成是如何工作的。

ADF 通用版本定于“今年秋季的晚些时候”发布,并承诺为所有 Azure Big Data 和分析服务使用者提供单独的认购,相关价格也会在秋天发布。

微软还承诺为使用 Cortana Analytics 的客户带来更多的、集成的业界垂直解决方案。它们是些基本的用例模板和加速器,为包括制造、医疗保健和金融服务业在内的那些领域提供帮助。就其本身来说可能它们还不是很成熟的产品,也肯定无法组成真正的一体化服务,但它们仍然可以作为经典的案例,为如何一起使用这些服务提供帮助。

一些特定的服务已经完成了点到点的集成。比如,Azure Data Factory 已经可以连接到 Azure Stream Analytics,而后者也已经可以连接到 Event Hubs。Power BI 也知道如何同运行在HDInsight 上的Apache Spark 进行交互。而Azure Data Lake 则仿真了HDFS(Hadoop 的分布式文件系统),它支持与Power BI 中 Power Query 组件的原生连接。Azure SQL Data Warehouse 使用了微软 PolyBase 的技术作为其特性,这种技术也集成到 HDInsight 和其它 Hadoop 发行版本中。

微软看起来并不想将 ADF 服务作为传统的(云使能)ETL 产品,如同 Informatica 和 SnapLogic 那样。虽然 ADF 也可以执行一些类似的注入和转换功能,但它看起来主要定位在分析场景和从不相干的数据集中获取洞察。 ADF 的定价 基于其管道中的活动,而且根据活动发生频率是否频繁,活动是在云端还是在本地端点运行,收费也会有很大的不同。用户为数据移动支付的费用是以小时为基础的,而没有激活的管道只会有名义上的计费而无实际的支出。

如果要学习更多的东西,可以看一下产品的学习地图,或者读一下它的 FAQ

查看英文原文 Microsoft Releases Azure Data Factory

2015-09-07 19:002195

评论

发布
暂无评论
发现更多内容

从0到1实现一个简单计算器

codevald

Java 项目 计算器 动手实践

机器学习·笔记之:Inverse and Transpose

Nydia

2 期架构师训练营 - 第三周学习总结

云飞扬

架构师训练营第2期

百度大脑 EasyEdge 推出端云协同服务,大幅提升本地部署模型迭代效率

百度大脑

几幅图拿下 ARP 协议

飞天小牛肉

Java 程序员 计算机网络 网络协议 2月春节不断更

产品经理训练营笔记-业务流程与产品文档(一)

.nil?

产品经理训练营

字节跳动面试必问:从外包月薪5K到阿里月薪15K,学习路线+知识点梳理

欢喜学安卓

android 程序员 面试 移动开发

大作业(二)

bing5tui3

架构师训练营第2期

大作业(一)

bing5tui3

极客时间架构师二期

Arthas 使用的各类方式

阿里巴巴云原生

Java 微服务 云原生 中间件 Arthas

Serverless 场景下 Pod 创建效率优化

阿里巴巴云原生

Docker Serverless 容器 云原生 k8s

停车、投票、领证,区块链如何在「智慧城市」建设中大显身手?

CECBC

区块链

杜绝“萝卜章”风险,区块链电子签章助力企业降本“保真”

CECBC

电子签名

架构师训练营第十一周作业

zamkai

架构2期-大作业(二)

浮生一梦

大作业 2组 架构师训练营第2期

如何在数据库中进行RBAC权限应用

BinTools图尔兹

数据库 权限管理 数据管理 rbac

百度大脑 EasyData 智能数据服务平台上线文本数据清洗功能

百度大脑

kafka的实现原理

八两

kafka Kafka知识点 kafka实现原理 kafka架构

注册中心 Nacos 异常实例需要30s才能剔除 Nacos心跳时间设置(踩坑)

laker

Spring Cloud nacos spring cloud alibaba

架构师训练营第六周作业

跳蚤

搜索引擎简述

跳蚤

区块链还可以这么玩?“点亮莫高窟”背后的腾讯云区块链

CECBC

区块链

前端开发:Node版本引起的报错问题

三掌柜

vue.js 大前端

排查指南 | 当 mPaaS 小程序真机扫码时提示 "应用更新错误(50002)"

蚂蚁集团移动开发平台 mPaaS

小程序 问题排查 mPaaS

欢度春节|新用户专属福利

InfoQ写作社区官方

热门活动

架构2期-大作业(一)

浮生一梦

大作业 2组 架构师训练营第2期

话题讨论 | 新年将至, 程序员如何以代码送出新春祝福

孙叫兽

Java 程序员 大前端 话题讨论 新春祝福

逼疯UE设计师,不可不知的提升产品用户体验的10个测试方法

华为云开发者联盟

产品 测试 UI 用户体验

无意间发现 Google 代码模板,分享给大家!

C语言与CPP编程

c++ JavaScript objective-c 代码规范 Python 编码格式

字节跳动架构师讲解Android开发!2021年展望Android原生开发的现状,分享一点面试小经验

欢喜学安卓

android 程序员 面试 移动开发

执行、管理、领导做不好,都有懒的因素

刘华Kenneth

领导力 管理 软件开发

微软发布Azure数据工厂_DevOps & 平台工程_Richard Seroter_InfoQ精选文章