写点什么

微软发布 Azure 数据工厂

  • 2015-09-07
  • 本文字数:2076 字

    阅读完需:约 7 分钟

那些以数据为重心的云提供商正试图使其设施中的数据收集和存储变得更加容易。为了使云端和本地设备间的数据移动更方便,微软近期发布了ADF,即 Azure 数据工厂(Azure Data Factory)的通用版本。然而,这项按次付费的业务并没有作为专业的 ETL(Extract Transform Load)工具出现,而是定位成微软分析套件的一个组成部分。

在本月(2015 年 8 月)早些时候微软的一篇机器学习的博客中,微软的副总裁 Joseph Sirosh描述了 ADF 并且阐述了这项业务所带来的益处。

通过使用 ADF,现有的数据处理服务可以被编排成数据管道(data pipeline),随之可以在云端获得高可用性并且被管理。这些数据管道可以被调度以用于数据注入、准备、变换、分析和发布的场景,并且 ADF 还会对所有的复杂数据和处理中的依赖项进行管理和编排,从而无须人工干预。ADF 实现方案可以迅速创建并且部署到云端,它可以连接越来越多的本地和云端数据源。

通过使用 ADF,你的业务可以充分享用完全可管理的云服务的好处,而不必购买任何硬件;利用自动化的云资源管理可以减少成本;使用全球化部署的数据传输设施,你还可以高效地移动数据。你可以方便的监控和管理复杂的调度计划和数据依赖,所有这些都通过一个提供监控管理功能的直观的人机界面来实现,通过 Azure 门户你可以访问它。最后开发者还可以通过熟悉的 Visual Studio 插件快速地完成方案创建和部署。

ADF 通过由活动编排而成的管道来处理数据集。数据集(dataset)描述了给定数据存储中的数据结构,ADF 提供了很多数据存储的连接器,其中包括Azure SQL、Azure DocumentDB、本地SQL Server、本地Oracle 数据库、本地Teradata 数据库、本地MySQL 数据库等等。ADF 中的活动(activities)在给定的数据集上执行操作,操作可能是进行数据移动,也可能是完成数据转换。数据移动活动负责在数据端点间传送数据,比如从数据存储中拷贝数据数据转换活动获取原始数据并对其执行查询,ADF 中有七个可用的转换活动,它们中的大部分依赖基于Hadoop 的 Azure HDInsight 服务,包括:

为了访问本地端点,ADF 使用了被称为数据管理网关的工具。网关运行在本地的windows 服务器上,使用加密的证书作为凭证来访问本地的数据存储。外发的请求都在标准的HTTP 端口上完成。网关实例是和特定的数据工厂绑定的,并且网关实例也只能运行在给定的服务器上。所以,如果用户需要使用多个数据工厂服务,就需要使用一组服务器并在上面运行相应的网关。为了创建数据工厂,开发者可以使用Azure Portal(beta 版本)、PowerShell、Visual Studio 或者REST API。

图片来源: https://azure.microsoft.com/en-us/documentation/articles/data-factory-introduction/

ADF 是微软在 7 月发布的 Cortana 分析套件的一部分。套件中的其它产品包括 Azure Data Catalog、Azure Machine Learning、HDInsight、Power BI 和 Azure Stream Analytics。微软是如何计划将这些独立的服务集成到单独的套件中呢?在 ZDNet 关于 ADF 的文章中,Andrew Brust 解释了这个封装和集成是如何工作的。

ADF 通用版本定于“今年秋季的晚些时候”发布,并承诺为所有 Azure Big Data 和分析服务使用者提供单独的认购,相关价格也会在秋天发布。

微软还承诺为使用 Cortana Analytics 的客户带来更多的、集成的业界垂直解决方案。它们是些基本的用例模板和加速器,为包括制造、医疗保健和金融服务业在内的那些领域提供帮助。就其本身来说可能它们还不是很成熟的产品,也肯定无法组成真正的一体化服务,但它们仍然可以作为经典的案例,为如何一起使用这些服务提供帮助。

一些特定的服务已经完成了点到点的集成。比如,Azure Data Factory 已经可以连接到 Azure Stream Analytics,而后者也已经可以连接到 Event Hubs。Power BI 也知道如何同运行在HDInsight 上的Apache Spark 进行交互。而Azure Data Lake 则仿真了HDFS(Hadoop 的分布式文件系统),它支持与Power BI 中 Power Query 组件的原生连接。Azure SQL Data Warehouse 使用了微软 PolyBase 的技术作为其特性,这种技术也集成到 HDInsight 和其它 Hadoop 发行版本中。

微软看起来并不想将 ADF 服务作为传统的(云使能)ETL 产品,如同 Informatica 和 SnapLogic 那样。虽然 ADF 也可以执行一些类似的注入和转换功能,但它看起来主要定位在分析场景和从不相干的数据集中获取洞察。 ADF 的定价 基于其管道中的活动,而且根据活动发生频率是否频繁,活动是在云端还是在本地端点运行,收费也会有很大的不同。用户为数据移动支付的费用是以小时为基础的,而没有激活的管道只会有名义上的计费而无实际的支出。

如果要学习更多的东西,可以看一下产品的学习地图,或者读一下它的 FAQ

查看英文原文 Microsoft Releases Azure Data Factory

2015-09-07 19:002047

评论

发布
暂无评论
发现更多内容

Unity中国、Cocos为OpenHarmony游戏生态插上腾飞的翅膀

OpenHarmony开发者

OpenHarmony

1024程序员节献礼,火山引擎ByteHouse带来三重产品福利

字节跳动数据平台

数据库 大数据 云原生 数仓 clickhosue

NFT聚合平台开发:综合指南NFT开发 DAPP开发

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 链游开发 NFT开发

CVPR2023优秀论文 | AIGC伪造图像鉴别算法泛化性缺失问题分析

百度Geek说

算法 AIGC 企业号10月PK榜

打造次世代分析型数据库(七):向量化计算层缓存

腾讯云大数据

数据库

10个基于.Net开发的Windows开源软件项目

树上有只程序猿

.net windows 开源软件

谷歌SEO是什么,它对外贸企业有什么好处?

九凌网络

第6期|GPTSecurity周报

云起无垠

多维评测指标解读第17届MSU世界编码器大赛全高清10bit赛道结果

阿里云视频云

云计算 视频云

人工智能学院学生在“火焰杯”软件测试开发选拔赛总决赛获奖

霍格沃兹测试开发学社

PS Raw增效工具Camera Raw 16 for Mac中文版

彩云

ps插件 Camera Raw 16

DR8072|IPQ8072 WIFI6E 4X4 2X2 2.4G 5G 6G Bluetooth GPS Industrial Customization Solution

wallyslilly

IPQ8072 IPQ8074

做好谷歌Seo的技巧

九凌网络

Balsamiq Wireframes for mac(线框图工具) v4.7.4永久激活版

mac

苹果mac Windows软件 Balsamiq Wireframes 线框图软件

计算机科学系举办“火焰杯”软件测试开发选拔赛颁奖仪式

霍格沃兹测试开发学社

重磅|博睿数据 Bonree ONE 2023秋季版焕新发布!

博睿数据

可观测性

浅谈基于敏捷开发交付应对突发项目

鲸品堂

敏捷 敏捷交付 交付 企业号10月PK榜

外贸网站seo优化教程!

九凌网络

当年很流行,现在已经淘汰的前端技术有哪些?

互联网工科生

前端 vite Bun Astro

演讲回顾 | 龙智专家分享“支撑、共享与安全:芯片开发中的数字资产管理”

龙智—DevSecOps解决方案

芯片 芯片设计 芯片行业

EtreCheckpro for mac(硬件信息查看工具) v6.8.2注册激活版

mac

苹果mac Windows软件 etrecheckpro 硬件信息查看工具

双十一激光投影选购全解,总有适合你的心头好物

Geek_2d6073

我院学子在第三届“火焰杯”软件测试开发选拔赛中 取得佳绩

霍格沃兹测试开发学社

Experience Design Mac中文破解版下载

iMac小白

adobe xd XD2024下载

Linux 爱好者线下沙龙:LLUG 2023·相聚成都 | 第四站

OpenAnolis小助手

Linux 开源 演讲 龙蜥社区 LLUG

Codigger:提高软件安全性的静态分析工具

知者如C

如何利用谷歌SEO服务帮助企业获客

九凌网络

第二届、第三届<火焰杯>软件测试开发选拔赛河北赛区颁奖典礼落幕

测试人

软件测试

Java基于API接口爬取商品数据

Noah

KubeEdge v1.15.0 发布!新增 Windows 边缘节点支持,基于物模型的设备管理,DMI数据面支持等功能

华为云原生团队

云计算 容器 云原生 边缘计算

微软发布Azure数据工厂_DevOps & 平台工程_Richard Seroter_InfoQ精选文章