写点什么

微软开源用于 Spark 的深度学习库 MMLSpark

  • 2017-10-23
  • 本文字数:857 字

    阅读完需:约 3 分钟

微软开源了 MMLSpark ,用于 Apache Spark 的的深度学习库。MMLSpark 可以与微软认知工具包 OpenCV 完美整合。

微软发现,虽然 SparkML 可以建立可扩展的机器学习平台,绝大多数开发者的精力都耗在了调用底层 API 上。MMLSpark 旨在简化 PySpark 中的重复性工作。

以 UCI 的成人收入普查数据集举例,使用其他项目预测收入:

如果直接使用 SparkML,每一列都需要单独处理,整理为正确的数据类型;在 MMLSpark 中只需要两行代码:

复制代码
model = mmlspark.TrainClassifier(model=LogisticRegression(), labelCol=” income”).fit(trainData)
predictions = model.transform(testData)

深度神经网络(DNN)在图像识别和语音识别等领域不逊于人类,但是 DNN 模型的训练需要专业人员方可进行,与 SparkML 的整合也十分不易。MMLSpark 提供了方便的 Python API,可以方便地训练 DNN 算法。MMLSpark 可以方便地使用现有模型进行分类任务、在分布式 GPU 节点上进行训练、以及使用 OpenCV 建立可扩展的图像处理管线。

以下 3 行代码可以从微软认知工具集中初始化一个 DNN 模型,从图像中抽取特征:

复制代码
cntkModel = CNTKModel().setInputCol(“images”).setOutputCol(“features”).setModelLocation(resnetModel).setOutputNode(“z.x”)
featurizedImages = cntkModel.transform(imagesWithLabels).select([‘labels’,’features’])
model = TrainClassifier(model=LogisticRegression(),labelCol=”labels”).fit(featurizedImages)

MMLSpark 已经发布到 Docker Hub 上,使用下面的命令即可在单机部署:

复制代码
docker run -it -p 8888:8888 -e ACCEPT_EULA=yes microsoft/mmlspark

MMLSpark 使用 MIT 协议授权。

查看英文原文

https://github.com/Azure/mmlspark

https://blogs.technet.microsoft.com/machinelearning/2017/06/07/announcing-microsoft-machine-learning-library-for-apache-spark/


感谢蔡芳芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-10-23 19:003460

评论

发布
暂无评论
发现更多内容

常用的Linux命令;Linux常用命令用法及实现方式

小魏写代码

软件测试管理进阶,快速掌握高效沟通的汇报技巧

测试人

软件测试 自动化测试 测试开发 测试管理

哪里有office2016安装包?office2016下载含激活工具

Rose

office办公套件 office2016

马帮ERP与ETLCloud快速同步

RestCloud

数据同步 ETL 数据集成 ERP

探索AIGC在腾讯自选股应用

ninetyhe

腾讯 AI 大模型 AIGC

测试管理进阶 | 快速掌握高效沟通的汇报技巧

测吧(北京)科技有限公司

测试

文心一言变身虚拟患者,助力医学生轻松开启「实践模式」

飞桨PaddlePaddle

百度 paddle 百度飞桨 开发者说 文心一言

阿里云大降价后,与主流云厂商的价格对比,你选哪家?

NineData

数据库 阿里云 服务器 云厂商 阿里云降价

photoshop 2021 对显卡的要求 ps2021中文破解版安装包下载

Rose

ps2021破解版 Photoshop 2021 Photoshop 2021要求

手把手带你快速上手香橙派AIpro

华为云开发者联盟

人工智能 华为云 昇腾 华为云开发者联盟 AI开发板

资深项目管理者教你快速掌握高效沟通的汇报技巧

霍格沃兹测试开发学社

软件测试学习笔记丨 k8s环境部署实战

测试人

软件测试 测试开发

英特尔x爱立信:以开放式移动网络加速未来关键领域数字化转型

E科讯

Parallels Desktop 19 虚拟机如何安装?详细PD19图文安装教程 含激活版Windows镜像

Rose

Win11系统下载 Parallels Desktop 19 pd 19 虚拟机安装

MestReNova 中文版:解析和解释核磁共振(NMR)和质谱(MS)数据

Rose

MestReNova软件 MestReNova14破解版 核磁共振 医学研究

Axure RP 9 与其他原型设计工具的比较:为何它是您的最佳选择?

Rose

原型设计 Axure RP 9汉化 Axure RP 9授权码

Java实战1

thinkers

线程池、Lambda、Java实战

Module2作业

大鹏

WebSocket 连接保持方法详解

Apifox

程序员 前端 后端 websocket 长连接

把简单留给用户,把复杂交给 AI

Kyligence

大数据 AI 数据治理 指标平台

【论文精读】| 综述:模糊测试的艺术、科学和工程(下)

云起无垠

App应用程序(概念、开发步骤、技术要点介绍)

天津汇柏科技有限公司

定制软件开发 app定制开发 软件开发定制

“智慧工程”助力房企突破发展瓶颈,精细化管理降本增效

Kyligence

大数据 数字化 解决方案 精细化管理

面试官:说说SSO单点登录的实现原理?

王磊

Java 面试

文心一言 VS 讯飞星火 VS chatgpt (205)-- 算法导论15.4 1题

福大大架构师每日一题

福大大架构师每日一题

VMware Workstation (VM电脑虚拟机)激活精简版

Rose

VMware Fusion破解版下载 虚拟机安装 VM虚拟机密钥

运维一款月变更70+次的服务,是一种什么体验?

华为云开发者联盟

开发 华为云 华为云开发者联盟

有道QAnything背后的故事---关于RAG的一点经验分享

有道技术团队

语言 & 开发 #开源

Solidity案例详解(四)投票智能合约

BSN研习社

区块链 Solidity

易点天下旗下出海应用数据分析与增长模型平台即将发布,一大波内测福利正在袭来!

新消费日报

微软开源用于Spark的深度学习库MMLSpark_语言 & 开发_Beining_InfoQ精选文章