QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

微软开源用于 Spark 的深度学习库 MMLSpark

  • 2017-10-23
  • 本文字数:857 字

    阅读完需:约 3 分钟

微软开源了 MMLSpark ,用于 Apache Spark 的的深度学习库。MMLSpark 可以与微软认知工具包 OpenCV 完美整合。

微软发现,虽然 SparkML 可以建立可扩展的机器学习平台,绝大多数开发者的精力都耗在了调用底层 API 上。MMLSpark 旨在简化 PySpark 中的重复性工作。

以 UCI 的成人收入普查数据集举例,使用其他项目预测收入:

如果直接使用 SparkML,每一列都需要单独处理,整理为正确的数据类型;在 MMLSpark 中只需要两行代码:

复制代码
model = mmlspark.TrainClassifier(model=LogisticRegression(), labelCol=” income”).fit(trainData)
predictions = model.transform(testData)

深度神经网络(DNN)在图像识别和语音识别等领域不逊于人类,但是 DNN 模型的训练需要专业人员方可进行,与 SparkML 的整合也十分不易。MMLSpark 提供了方便的 Python API,可以方便地训练 DNN 算法。MMLSpark 可以方便地使用现有模型进行分类任务、在分布式 GPU 节点上进行训练、以及使用 OpenCV 建立可扩展的图像处理管线。

以下 3 行代码可以从微软认知工具集中初始化一个 DNN 模型,从图像中抽取特征:

复制代码
cntkModel = CNTKModel().setInputCol(“images”).setOutputCol(“features”).setModelLocation(resnetModel).setOutputNode(“z.x”)
featurizedImages = cntkModel.transform(imagesWithLabels).select([‘labels’,’features’])
model = TrainClassifier(model=LogisticRegression(),labelCol=”labels”).fit(featurizedImages)

MMLSpark 已经发布到 Docker Hub 上,使用下面的命令即可在单机部署:

复制代码
docker run -it -p 8888:8888 -e ACCEPT_EULA=yes microsoft/mmlspark

MMLSpark 使用 MIT 协议授权。

查看英文原文

https://github.com/Azure/mmlspark

https://blogs.technet.microsoft.com/machinelearning/2017/06/07/announcing-microsoft-machine-learning-library-for-apache-spark/


感谢蔡芳芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-10-23 19:003419

评论

发布
暂无评论
发现更多内容

安全无小事,教你解决密码泄露问题!

老陈

工具 安全 密码泄露

自己动手写Docker系列 -- 3.1构造实现run命令版本的容器

Go Docker

蚂蚁金服-财富编码军规

Beaver

编码规范 编码军规 蚂蚁金服-财富编码军规

C语言中如何输出汉字;如何用C语言汉字编码输出汉字(超全版)

北极的大企鹅

c 问题处理

c语言结构体中的一个char数组怎么赋值?

北极的大企鹅

c 问题处理

Powershell基础之脚本执行

喀拉峻

网络安全 安全 渗透测试

java如何对接企业微信

经典鸡翅

3月月更

面向企业级前端应用的开发框架 UI5 的发展简史介绍

汪子熙

JavaScript 前端开发 前端框架 企业级应用 3月月更

两会声音|建议完善数字人民币体系 完善数字货币立法

CECBC

重磅硬核 | 一文聊透对象在JVM中的内存布局,以及内存对齐和压缩指针的原理及应用

bin的技术小屋

JVM 内存 Java虚拟机 false sharing java

微博评论高性能高可用计算架构

唐尤华

架构实战营

Studio One 5新版本安装包图文教程

茶色酒

Studio One 5 fl水果20.9

赋能区域产业,南京、成都双城AI开发者Meetup报名开启

百度大脑

区块链共识,机器说了算还是人说了算?

Akumas

区块链 数字化转型 共识机制 十四五规划

【C语言】轻松解决Bug

謓泽

C语言 bug 3月月更

深入理解HTML表格秘籍

喀拉峻

基于STM32设计的森林火灾预警系统

DS小龙哥

物联网 3月月更

我的第一个 Flutter 应用之旅

岛上码农

flutter ios 安卓 移动端开发 3月月更

区块链的过去与未来

CECBC

c语言怎么避免打印空数据?

北极的大企鹅

c 问题处理

最好用的 6 款 Vue 拖拽组件库推荐 - 卡拉云

蒋川

Vue Vue3 vue cli

Lyft微服务研发效能提升实践 | 4. 基于自动验收测试的部署门禁

俞凡

研发效能 大厂实践 lyft 3月月更

Go学习笔记——复合数据结构之结构体

为自己带盐

Go 学习笔记 3月月更

俄罗斯能通过加密货币规避制裁吗?

CECBC

千万级学生管理系统的考试试卷存储方案

AragornYang

架构训练营 架构实战营

适合新手代码审计之熊海cms

H

网络安全 代码审计

千万级学生管理系统的考试试卷存储方案

「架构实战营」

当听障人士实现手语自由:手语AI平台的产业狂想

脑极体

HTTP的成长

Tristan

前端 浏览器 网络 HTTP

系统学习 TypeScript(六)——认识接口

编程三昧

typescript 前端 3月月更

web安全之挖掘Linux内核漏洞

网络安全学海

Linux 网络安全 渗透测试 WEB安全 漏洞挖掘

微软开源用于Spark的深度学习库MMLSpark_语言 & 开发_Beining_InfoQ精选文章