写点什么

Azure 云:大数据时代的机器学习平台

  • 2014-12-01
  • 本文字数:2269 字

    阅读完需:约 7 分钟

自十八世纪的贝叶斯理论开始,从数据中挖掘出有价值的数据挖掘技术,已给科学和社会的进步带来了巨大贡献。随着移动互联网的迅猛发展,人类社会已经不可避免的进入了大数据的时代。与传统数据相比,大数据有着海量、异构、重复甚至冲突的数据,这使得传统数据挖掘方法无论从数据形态还是从计算模型,或是从计算效率上都无法继续胜任新的需求。

首先,数据挖掘学科的研究对象发生了剧烈变化,跟传统的互联网以网页存储信息和搜索引擎检索信息不同,移动互联网的数据以社交网络和群体智能的形态存在,它的数据量巨大,异构数据层出不穷,其中甚至充斥着错误冗余。时至今日,数据格式日益复杂,数据规模指数日益增长,这使人们无法在一定时间内用常规挖掘系统对其内容进行抓取、管理和处理。所以,传统的数据挖掘系统已然无法满足当前的数据挖掘需求。

为了迎接这个挑战,近年来,众多学者在上述四个方面进行了大量的研究工作,于是产生了云计算、云模型、社会网络、群体智能等诸多研究课题。以云计算为例,云计算(Cloud Computing)是一种基于互联网的大众参与的计算模式,其计算资源(包括计算能力、存储能力、交互能力等)以服务的方式提供,它是动态的、可伸缩的、被虚拟化的。而且,云计算也因其动态配置、低功耗、低维护成本等特点,迅速得到了信息产业的青睐。

其实,云计算的思想可追溯到二十世纪六十年代,那是,John McCarthy 就提到过,“或许有一天,计算会像水电一样,变成公共基础设施”。2003 年,著名的搜索引擎公司 Google 多次在计算机研究领域的顶级会议表面并在和期刊上发表论文,阐述其分布式处理方法,向业界揭示其云计算核心技术,如基于 MapReduce 思想的并行编程环境和 BigTable 分布式数据库系统的 GFS(Google File System)分布式文件系统。基于这样的基础架构,Google 成功建立了包括 Gmail、Google Maps、Google Drives 等一系列具有全新界面和强大交互感的 Web 2.0 应用。2007 年底,Google 和 IBM 公司相继宣布其云计算战略计划,从此,“云计算”这个专业词语开始受到公众的关注,并迅速成为产业新星和研究热点。

通常来讲,云计算是一个四层结构:硬件层、基础架构层、平台层和应用层。云计算的商业模式也基于这个层次结构可分为三类:架构即服务 (IaaS),平台即服务 (PaaS) 和软件即服务 (SaaS)。根据用户范围还可以分为公有云和私有云以及混合云等。产业界比较著名的云计算平台有上文提到的注重分布式存储和编程的 Google 云计算平台,使用多层次虚拟化技术的 IBM“蓝云”,注重网络远程操作的亚马逊弹性计算云,以及国内注重 Web 应用的百度 BAE 和注重弹性计算的阿里云。

当前关于云计算的研究,多停留在基础架构和平台层它,主要可分为三类:一是如何构建分布式平台的基础设施,如微软的 Dryad 框架,Amazon 公司的 Dynamo 框架,以及 Ask.com 公司的 Neptune 框架等;二是分布式编程框架,如 Yahoo! 公司的 MapReduceMerge 框架,斯坦福大学的多核处理器框架,威斯康辛大学在 Cell 处理器上对 MapReduce 的移植等;三是云计算中架构和存储的安全问题。而对于软件即服务,则多停留在如何改善网络时代的软件工程研究,鲜有学者比如威斯康辛大学的 Hazy 系统这样,以海量数据挖掘作为目标,从系统到编程模型全面为开发人员定制的研究课题。因此,如何利用好云计算现有的技术架构,增添挖掘即服务 (MaaS) 的层次,更好的设计海量数据挖掘系统的计算架构,仍然是一项极具挑战性的课题,因为它需要有复杂的软件、高端的服务器和资深的数据挖掘专家团队来支撑这项课题。

Azure 云凭借微软多年的研究积累,在这个 MaaS 需求强烈的节骨眼上,推出了机器学习云平台。该平台是“一种完全托管的云服务,它可以使数据专家和开发人员能够高效地将预测分析嵌入到他们的应用程序中,从而有助于组织使用大量数据集,并可以将云服务的所有优势带入机器学习中”。同时,它还提供了数据下载、模型选择、模型训练和数据预测一整套机器学习的工作流,并在每个步骤里都以非常友好的可视化界面呈现给开发者。

如下图所示,Azure 云提供了友好的在线开发环境,开发者既可以构建自己的试验来测试自主设计工作流的可行性,还可以将测试通过的工作流以Web 服务的形式提供接口,供日后使用。

在试验的栏目里,开发者可以通过拖拽左边的模块来完成工作流的设计。模块的种类非常丰富,包括预加载数据、数据格式转换工具、数据输入与输出、特征选择、机器学习算法、R 语言接口、统计函数以及文本分析等等。

此外,Azure 还提供了大量的在线视频和教程,供开发者学习。比如,一个经典的机器学习算法开发过程,就包括了获取数据、预处理、定义特征、选择学习算法以及做出预测这五个步骤。另外还有在线社区供开发者对机器学习相关问题进行讨论。最值得称赞的是,开发者还可以将开发的算法放到市场(Marketplace)中出售给其他人,依靠自己的聪明才智来获得应有的物质报酬。

Azure 云机器学习平台,依托多年来 Xbox 和 Bing 搜索的技术积累,以及微软遍布全球研究院的研究成果,将其汇聚成一个非常简单的云计算服务呈现给开发者。总体来讲,这个平台对以往形式的数据挖掘和机器学习来说是个颠覆,它给新手以及初创公司提供了廉价而有效的挖掘平台,在此之前,只有资金雄厚的大公司才可以想象。相信在未来,更多的算法会登陆 Azure 云机器学习平台,为更多的企业提供优质服务。


感谢郭蕾对本文的策划和审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-12-01 00:377214
用户头像

发布了 268 篇内容, 共 131.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

Java 虚拟机1:什么是 Java(1),DubboSPI及自适应扩展原理

Java 程序员 后端

IDEA的Docker插件实战(Docker Image篇),rabbitmqpdf百度云

Java 程序员 后端

Jaeger知识点补充,java菜鸟教程面向对象

Java 程序员 后端

Java this关键字详解(3种用法),Java程序员最新职业规划

Java 程序员 后端

Java 低代码开发平台“光”发布 2,javapdf模板下载百度云

Java 程序员 后端

Java 反射:框架设计的灵魂,springboot运行原理

Java 程序员 后端

JAVA 微信小程序 解密 用户信息encryptedData,linux系统架构与目录解析

Java 程序员 后端

IDEA这样配置,好用到爆炸!,Java开发必须要会

Java 程序员 后端

InnoDB(3,韩顺平java从入门到精通课件

Java 程序员 后端

java 数据结构与算法之稀疏矩阵算法,BTAJ面试有关散列(哈希)表的面试题详解

Java 程序员 后端

Java 方法的使用(方法重载、形参和实参调用关系,java高级面试最新

Java 程序员 后端

Java 虚拟机1:什么是 Java,太完整了

Java 程序员 后端

Hello Git快速入门,三年经验Java开发面经总结

Java 程序员 后端

学生管理系统-详细架构设计文档

joukosusi

架构

IDEA类和方法注释模板设置(超详细教程),java程序执行过程与编译原理

Java 程序员 后端

Android C++系列:JNI调用 Java 类的构造方法和父类的方法.md

轻口味

c++ android jni 11月日更

jackson学习之八:常用方法注解(1),java虚拟机实现原理

Java 程序员 后端

HDU-3038-How Many Answers Are Wrong【 带权并查集 】题解

Java 程序员 后端

James邮件服务器,高级java工程师简历模板

Java 程序员 后端

如何做架构设计

天天向上

架构实战营

InnoDB(4(1),java技术架构知识

Java 程序员 后端

InnoDB(4,java中级工程师面试题

Java 程序员 后端

一行代码爬取微博热搜数据

老表

爬虫 python学习 11月日更

HTML笔记 —— 标签和超链接,java面试数据库隔离级别实战

Java 程序员 后端

Java 多线程 —— 定时器,svnlinux使用教程

Java 程序员 后端

Prometheus HTTP API 查询(三)查询元数据

耳东@Erdong

Prometheus PromQL HTTP API 11月日更

jackson学习之八:常用方法注解,复习指南

Java 程序员 后端

如何编写 Go 包

baiyutang

golang 11月日更

Java transient关键字的使用,java商城项目面试

Java 程序员 后端

Java 世界里的垃圾回收规则你搞懂了吗?,springboot输出视频流

Java 程序员 后端

JAVA 获取系统日期时间,java基础百度云

Java 程序员 后端

Azure云:大数据时代的机器学习平台_微软_张天雷_InfoQ精选文章