写点什么

Azure 云:大数据时代的机器学习平台

  • 2014-12-01
  • 本文字数:2269 字

    阅读完需:约 7 分钟

自十八世纪的贝叶斯理论开始,从数据中挖掘出有价值的数据挖掘技术,已给科学和社会的进步带来了巨大贡献。随着移动互联网的迅猛发展,人类社会已经不可避免的进入了大数据的时代。与传统数据相比,大数据有着海量、异构、重复甚至冲突的数据,这使得传统数据挖掘方法无论从数据形态还是从计算模型,或是从计算效率上都无法继续胜任新的需求。

首先,数据挖掘学科的研究对象发生了剧烈变化,跟传统的互联网以网页存储信息和搜索引擎检索信息不同,移动互联网的数据以社交网络和群体智能的形态存在,它的数据量巨大,异构数据层出不穷,其中甚至充斥着错误冗余。时至今日,数据格式日益复杂,数据规模指数日益增长,这使人们无法在一定时间内用常规挖掘系统对其内容进行抓取、管理和处理。所以,传统的数据挖掘系统已然无法满足当前的数据挖掘需求。

为了迎接这个挑战,近年来,众多学者在上述四个方面进行了大量的研究工作,于是产生了云计算、云模型、社会网络、群体智能等诸多研究课题。以云计算为例,云计算(Cloud Computing)是一种基于互联网的大众参与的计算模式,其计算资源(包括计算能力、存储能力、交互能力等)以服务的方式提供,它是动态的、可伸缩的、被虚拟化的。而且,云计算也因其动态配置、低功耗、低维护成本等特点,迅速得到了信息产业的青睐。

其实,云计算的思想可追溯到二十世纪六十年代,那是,John McCarthy 就提到过,“或许有一天,计算会像水电一样,变成公共基础设施”。2003 年,著名的搜索引擎公司 Google 多次在计算机研究领域的顶级会议表面并在和期刊上发表论文,阐述其分布式处理方法,向业界揭示其云计算核心技术,如基于 MapReduce 思想的并行编程环境和 BigTable 分布式数据库系统的 GFS(Google File System)分布式文件系统。基于这样的基础架构,Google 成功建立了包括 Gmail、Google Maps、Google Drives 等一系列具有全新界面和强大交互感的 Web 2.0 应用。2007 年底,Google 和 IBM 公司相继宣布其云计算战略计划,从此,“云计算”这个专业词语开始受到公众的关注,并迅速成为产业新星和研究热点。

通常来讲,云计算是一个四层结构:硬件层、基础架构层、平台层和应用层。云计算的商业模式也基于这个层次结构可分为三类:架构即服务 (IaaS),平台即服务 (PaaS) 和软件即服务 (SaaS)。根据用户范围还可以分为公有云和私有云以及混合云等。产业界比较著名的云计算平台有上文提到的注重分布式存储和编程的 Google 云计算平台,使用多层次虚拟化技术的 IBM“蓝云”,注重网络远程操作的亚马逊弹性计算云,以及国内注重 Web 应用的百度 BAE 和注重弹性计算的阿里云。

当前关于云计算的研究,多停留在基础架构和平台层它,主要可分为三类:一是如何构建分布式平台的基础设施,如微软的 Dryad 框架,Amazon 公司的 Dynamo 框架,以及 Ask.com 公司的 Neptune 框架等;二是分布式编程框架,如 Yahoo! 公司的 MapReduceMerge 框架,斯坦福大学的多核处理器框架,威斯康辛大学在 Cell 处理器上对 MapReduce 的移植等;三是云计算中架构和存储的安全问题。而对于软件即服务,则多停留在如何改善网络时代的软件工程研究,鲜有学者比如威斯康辛大学的 Hazy 系统这样,以海量数据挖掘作为目标,从系统到编程模型全面为开发人员定制的研究课题。因此,如何利用好云计算现有的技术架构,增添挖掘即服务 (MaaS) 的层次,更好的设计海量数据挖掘系统的计算架构,仍然是一项极具挑战性的课题,因为它需要有复杂的软件、高端的服务器和资深的数据挖掘专家团队来支撑这项课题。

Azure 云凭借微软多年的研究积累,在这个 MaaS 需求强烈的节骨眼上,推出了机器学习云平台。该平台是“一种完全托管的云服务,它可以使数据专家和开发人员能够高效地将预测分析嵌入到他们的应用程序中,从而有助于组织使用大量数据集,并可以将云服务的所有优势带入机器学习中”。同时,它还提供了数据下载、模型选择、模型训练和数据预测一整套机器学习的工作流,并在每个步骤里都以非常友好的可视化界面呈现给开发者。

如下图所示,Azure 云提供了友好的在线开发环境,开发者既可以构建自己的试验来测试自主设计工作流的可行性,还可以将测试通过的工作流以Web 服务的形式提供接口,供日后使用。

在试验的栏目里,开发者可以通过拖拽左边的模块来完成工作流的设计。模块的种类非常丰富,包括预加载数据、数据格式转换工具、数据输入与输出、特征选择、机器学习算法、R 语言接口、统计函数以及文本分析等等。

此外,Azure 还提供了大量的在线视频和教程,供开发者学习。比如,一个经典的机器学习算法开发过程,就包括了获取数据、预处理、定义特征、选择学习算法以及做出预测这五个步骤。另外还有在线社区供开发者对机器学习相关问题进行讨论。最值得称赞的是,开发者还可以将开发的算法放到市场(Marketplace)中出售给其他人,依靠自己的聪明才智来获得应有的物质报酬。

Azure 云机器学习平台,依托多年来 Xbox 和 Bing 搜索的技术积累,以及微软遍布全球研究院的研究成果,将其汇聚成一个非常简单的云计算服务呈现给开发者。总体来讲,这个平台对以往形式的数据挖掘和机器学习来说是个颠覆,它给新手以及初创公司提供了廉价而有效的挖掘平台,在此之前,只有资金雄厚的大公司才可以想象。相信在未来,更多的算法会登陆 Azure 云机器学习平台,为更多的企业提供优质服务。


感谢郭蕾对本文的策划和审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-12-01 00:377476
用户头像

发布了 268 篇内容, 共 138.7 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

海外营销终极指南:从市场洞察到ROI衡量(2026完整版)

Wolink

跨境贸易 出海 海外社媒营销 海外营销推广 海外红人营销

开源鸿蒙社区迎来重大进展,开源鸿蒙项目顺利孵化毕业

新消费日报

评估海外媒体监测平台数据质量与采集能力的三个关键

沃观Wovision

出海 社媒监测 海外社交媒体监控 出海媒体监测 社媒分析

CAD半径标注怎么用?详细教程来了

在路上

cad CAD看图王

探索Agent Payments Protocol (AP2):构建智能支付代理的开源方案

qife122

开源项目 支付协议

一分钟学会CAD多线段测量?小白看完秒懂!

在路上

cad cad看图 CAD看图王

机械装配行业如何用 MES 系统实现智造升级?

万界星空科技

mes 万界星空科技mes 机械加工mes 机械组装mes 机械制造业MES

出海必经之路:避开海外营销的7个常见误区与对策

Wolink

跨境贸易 出海 外贸 海外营销推广 海外红人营销

AI 原生测试自动化

俞凡

人工智能 自动化测试

AI 英语教育软件开发流程

北京木奇移动技术有限公司

AI教育 软件外包公司 AI英语

YashanDB数据库海量数据同步技术与实现路径

数据库砖家

超越零散战术:构建企业级海外营销战略框架的5大支柱

Wolink

跨境贸易 出海 海外社媒营销 海外营销推广 海外红人营销

跨越文化鸿沟:海外推广中必须掌握的5大消费心理差异

Wolink

出海企业 外贸独立站 海外社媒营销 海外营销推广 海外红人营销

内容为王,策略为后:打造可持续的海外推广内容引擎

Wolink

跨境电商 出海 海外社媒营销 海外营销推广 海外红人营销

优化业务支出管理,发展企业集中式财务治理

智达方通

企业管理 财务管理

Rwa交易所、实物资产数字化都需要做哪些、法律是否支持

西安链酷科技

YashanDB数据库关键指标监测与预警体系建设

数据库砖家

YashanDB数据库管理自动化工具及应用前景

数据库砖家

JSAPIThree 地图投影学习笔记:理解坐标系统

map_3d_vis

初学者 mapvthree 地图投影 EPSG

直接将区块链系统做进手机里?web3手机+项目生态系统怎么做?

西安链酷科技

写给0-1岁的初创公司合伙人(129):副业营销(Side-Project Marketing)——做工具引流,而不是投广告

Y11

创业 面试 求职 找工作

央视短片《心路·新路》发布:鸿蒙走出一条中国科技的新路

最新动态

YashanDB数据库关键性能指标分析及改进策略

数据库砖家

YashanDB数据库集成AI技术的创新探索与实践

数据库砖家

海外媒体监测平台全景图:2025年主流厂商的技术路径与市场定位

沃观Wovision

出海 社媒监测 社交媒体监控 海外社交媒体监控 社媒分析

京东拍立淘图片搜索API助力快速找商品

Datafox(数据狐)

京东API 京东图片搜索接口 京东拍立淘接口

钱包加u卡支付系统是什么样的模式呢

西安链酷科技

第二章 语言即接口:思维的可编程化

愚夫

Agents Agentic Agentic AI AI理解意图

2025年智慧客房系统供应商口碑排行榜权威发布

新消费日报

2025开放原子开发者大会开源鸿蒙技术分论坛:AI赋能筑智基,生态共荣启新篇

新消费日报

2025开源鸿蒙开发者激励计划正式启动,为生态繁荣注入持久动力

新消费日报

Azure云:大数据时代的机器学习平台_微软_张天雷_InfoQ精选文章