HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

微软发布 Azure 数据工厂

  • 2015-09-07
  • 本文字数:2076 字

    阅读完需:约 7 分钟

那些以数据为重心的云提供商正试图使其设施中的数据收集和存储变得更加容易。为了使云端和本地设备间的数据移动更方便,微软近期发布了ADF,即 Azure 数据工厂(Azure Data Factory)的通用版本。然而,这项按次付费的业务并没有作为专业的 ETL(Extract Transform Load)工具出现,而是定位成微软分析套件的一个组成部分。

在本月(2015 年 8 月)早些时候微软的一篇机器学习的博客中,微软的副总裁 Joseph Sirosh描述了 ADF 并且阐述了这项业务所带来的益处。

通过使用 ADF,现有的数据处理服务可以被编排成数据管道(data pipeline),随之可以在云端获得高可用性并且被管理。这些数据管道可以被调度以用于数据注入、准备、变换、分析和发布的场景,并且 ADF 还会对所有的复杂数据和处理中的依赖项进行管理和编排,从而无须人工干预。ADF 实现方案可以迅速创建并且部署到云端,它可以连接越来越多的本地和云端数据源。

通过使用 ADF,你的业务可以充分享用完全可管理的云服务的好处,而不必购买任何硬件;利用自动化的云资源管理可以减少成本;使用全球化部署的数据传输设施,你还可以高效地移动数据。你可以方便的监控和管理复杂的调度计划和数据依赖,所有这些都通过一个提供监控管理功能的直观的人机界面来实现,通过 Azure 门户你可以访问它。最后开发者还可以通过熟悉的 Visual Studio 插件快速地完成方案创建和部署。

ADF 通过由活动编排而成的管道来处理数据集。数据集(dataset)描述了给定数据存储中的数据结构,ADF 提供了很多数据存储的连接器,其中包括Azure SQL、Azure DocumentDB、本地SQL Server、本地Oracle 数据库、本地Teradata 数据库、本地MySQL 数据库等等。ADF 中的活动(activities)在给定的数据集上执行操作,操作可能是进行数据移动,也可能是完成数据转换。数据移动活动负责在数据端点间传送数据,比如从数据存储中拷贝数据数据转换活动获取原始数据并对其执行查询,ADF 中有七个可用的转换活动,它们中的大部分依赖基于Hadoop 的 Azure HDInsight 服务,包括:

为了访问本地端点,ADF 使用了被称为数据管理网关的工具。网关运行在本地的windows 服务器上,使用加密的证书作为凭证来访问本地的数据存储。外发的请求都在标准的HTTP 端口上完成。网关实例是和特定的数据工厂绑定的,并且网关实例也只能运行在给定的服务器上。所以,如果用户需要使用多个数据工厂服务,就需要使用一组服务器并在上面运行相应的网关。为了创建数据工厂,开发者可以使用Azure Portal(beta 版本)、PowerShell、Visual Studio 或者REST API。

图片来源: https://azure.microsoft.com/en-us/documentation/articles/data-factory-introduction/

ADF 是微软在 7 月发布的 Cortana 分析套件的一部分。套件中的其它产品包括 Azure Data Catalog、Azure Machine Learning、HDInsight、Power BI 和 Azure Stream Analytics。微软是如何计划将这些独立的服务集成到单独的套件中呢?在 ZDNet 关于 ADF 的文章中,Andrew Brust 解释了这个封装和集成是如何工作的。

ADF 通用版本定于“今年秋季的晚些时候”发布,并承诺为所有 Azure Big Data 和分析服务使用者提供单独的认购,相关价格也会在秋天发布。

微软还承诺为使用 Cortana Analytics 的客户带来更多的、集成的业界垂直解决方案。它们是些基本的用例模板和加速器,为包括制造、医疗保健和金融服务业在内的那些领域提供帮助。就其本身来说可能它们还不是很成熟的产品,也肯定无法组成真正的一体化服务,但它们仍然可以作为经典的案例,为如何一起使用这些服务提供帮助。

一些特定的服务已经完成了点到点的集成。比如,Azure Data Factory 已经可以连接到 Azure Stream Analytics,而后者也已经可以连接到 Event Hubs。Power BI 也知道如何同运行在HDInsight 上的Apache Spark 进行交互。而Azure Data Lake 则仿真了HDFS(Hadoop 的分布式文件系统),它支持与Power BI 中 Power Query 组件的原生连接。Azure SQL Data Warehouse 使用了微软 PolyBase 的技术作为其特性,这种技术也集成到 HDInsight 和其它 Hadoop 发行版本中。

微软看起来并不想将 ADF 服务作为传统的(云使能)ETL 产品,如同 Informatica 和 SnapLogic 那样。虽然 ADF 也可以执行一些类似的注入和转换功能,但它看起来主要定位在分析场景和从不相干的数据集中获取洞察。 ADF 的定价 基于其管道中的活动,而且根据活动发生频率是否频繁,活动是在云端还是在本地端点运行,收费也会有很大的不同。用户为数据移动支付的费用是以小时为基础的,而没有激活的管道只会有名义上的计费而无实际的支出。

如果要学习更多的东西,可以看一下产品的学习地图,或者读一下它的 FAQ

查看英文原文 Microsoft Releases Azure Data Factory

2015-09-07 19:002055

评论

发布
暂无评论
发现更多内容

五位阿里大牛联手撰写的《深入浅出Java多线程》,java开发视频直播

Java 程序员 后端

京东十年T8架构师手撕MySQL:手写666页核心知识,超85,java在线编译器实现原理

Java 程序员 后端

五分钟看穿Java并发相关概念,并发原来如此简单,linux学习步骤

Java 后端

京东T7架构师手写的10万字Spring Boot详细学习笔记+源码免费下载

Java 程序员 后端

人工智能 - 语音识别的技术原理是什么,Java理论知识思维导图

Java 程序员 后端

从 0 到 1,带你解剖 MVP 的神秘之处,并自己动手实现 MVP !

Java 程序员 后端

从Java小白到拿到30k offer,分享自己的学习路程,java基础案例教程pdf百度云

Java 程序员 后端

为什么说简历很重要?怎么才能写出一份完美的简历?这篇文章你值得拥有

Java 程序员 后端

Vue进阶(幺伍伍):vue-resource 拦截器 interceptors 使用

No Silver Bullet

Vue vue-resource 10月月更

人到中年的焦虑,Java面试第一问就是做过什么最有难度的项目

Java 程序员 后端

今年,我在字节跳动面试了九次【已意向书,mongodb入门pdf

Java 程序员 后端

为什么阿里巴巴不建议在for循环中使用”+,java编程技术开发题库和答案

Java 程序员 后端

五分钟带你了解Seata分布式事务,java基础菜鸟教程txt

Java 程序员 后端

京东前端面经(123面详细),进阶学习工作最全指南

Java 程序员 后端

什么是接口的幂等性,如何实现接口幂等性?,java微服务架构视频下载

Java 程序员 后端

从Mybatis源码到Spring动态数据源底层原理分析系列二、Mybatis执行器源码分析

Java 程序员 后端

九年程序员生涯,我的一些经验教训,offer来了java面试百度云版

Java 程序员 后端

互联网寒冬下!疫情又遭滑铁卢!从裁员到斩获新offer我经历了什么

Java 程序员 后端

京东三面被惨虐:索引+数据库,kafka入门与实践epub

Java 程序员 后端

京东面试,这个问题让我与50万擦肩而过,帮忙看看,mysql下载教程window10

Java 程序员 后端

什么神仙笔记!阿里P9用39实例+1项目讲明白了Spring Cloud家族

Java 程序员 后端

今日头条一面:十道经典面试题解析,Redis如何实现高可扩展

Java 程序员 后端

从Mybatis源码到Spring动态数据源底层原理分析系列一、Mybatis初始化源码浅析

Java 程序员 后端

二十不惑的年纪,竟4面拿下字节跳动offer,我简直走了,jdk和jre区别面试题

Java 程序员 后端

二叉树的各种算法面试题及答案解析,linux基础教程第二版pdf

Java 程序员 后端

互联网架构“高并发”到底怎么玩,用Elasticsearch搞定日均1亿订单查询

Java 程序员 后端

京东T9裂墙力荐的82万字spring cloud微服务和分布式系统实践文档

Java 程序员 后端

人性的弱点-读书笔记,java面试题大汇总小山博客

Java 程序员 后端

什么是 MySQL 全局锁、表锁、行锁,Java高级开发岗必问知识点

Java 程序员 后端

什么?这个岗位薪资秒杀一众程序员?,java技术面试常见问题

Java 程序员 后端

二面余额宝(交叉面),mybatis功能架构

Java 程序员 后端

微软发布Azure数据工厂_DevOps & 平台工程_Richard Seroter_InfoQ精选文章