在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

Intel 开源了基于 Apache Spark 的分布式深度学习框架 BigDL

  • 2017-01-18
  • 本文字数:785 字

    阅读完需:约 3 分钟

Intel 开源了基于 Apache Spark 的分布式深度学习框架 BigDL 。BigDL 借助现有的 Spark 集群来运行深度学习计算,并简化存储在 Hadoop 中的大数据集的数据加载。

Xeon 服务器上运行的测试结果表明,BigDL 比其他开源框架 Caffe Torch TensorFlow 有显著的性能提升。BigDL 速度可与主流 GPU 匹敌,而且能够扩展到数十个 Xeon 服务器。

BigDL 库支持 Spark 1.5、1.6 和 2.0 版本,并容许将深度学习嵌入在现有的 Spark 程序中。BigDL 库中有把 Spark RDDs 转换为 BigDL DataSet 的方法,并且可以直接与 Spark ML Pipelines 一起使用。

对于模型训练,BigDL 使用了在多个执行器中执行单个 Spark 任务的同步小批量 SGD( Stochastic Gradient Descent )。每个执行器运行一个多线程引擎并处理一部分微批次数据。在当前版本中,所有的训练和验证数据都存储到存储器中。

BigDL 使用 Scala 开发,并参考了 Torch 的模型。像 Torch 一样,它有一个使用 Intel MKL 库进行计算的 Tensor 类。Intel MKL(Math Kernel Library)是由一系列为计算优化过的小程序所组成的库,这些小程序从 FFT (快速傅立叶变换)到矩阵乘法均有涉及,常用于深度学习模型训练。Module 是另一个从 Torch 借鉴而来的概念,它的灵感来自 Torch 的 nn package 。Module 代表单独的神经网络层、 Table Criterion

BigDL 提供了一个 AWS EC2 镜像和一些示例,比如使用卷积神经网络进行文本分类,还有图像分类以及如何将在Torch 或Caffe 中预训练过的模型加载到 Spark 中进行预测计算。来自社区的请求主要包括提供对 Python 的支持和 MKL-DNN (MKL 的深度学习扩展)。

查看英文原文 Intel Open-Sources BigDL, Distributed Deep Learning Library for Apache Spark


感谢薛命灯对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-01-18 18:005383
用户头像

发布了 22 篇内容, 共 63424 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

漫谈哲学与编程

keelii

编程 哲学

知乎开发了一个搜索引擎

红泥

搜索引擎 百度 知乎

在谈判中,你有哪些属于自己的独特的方法和技巧?

Yolanda

除了负载均衡的算法,你还应该知道这些

松花皮蛋me

Java 负载均衡 分布式

世界知识产权日碎碎念

Yin

成长 随笔 知识产权

克制文章长度

changyou

Golang 真的好用吗?

极客时间

编程语言 Go 语言

随手记备忘录的好习惯

changyou

「超级右键」

非著名程序员

macos 程序员 效率工具 软件 Mac

基于Kubernetes的多云和混合云

倪朋飞

云计算 架构 Kubernetes 微服务 Service Mesh

微信朋友圈为什么没有阅读数?

彭宏豪95

微信 产品 产品设计

别总说CMS、G1,该聊聊ZGC了

猿人谷

CMS G1 ZGC JVM

程序员都应该了解的运维知识经验

松花皮蛋me

DevOps 分布式 运维

敏捷开发 | 张三与需求管理

易成研发中心

敏捷开发 需求管理

爱他,就让他走?

Selina

团队管理 领导力 团队协作

我为什么选择infoq写作平台

三爻

前端如何搞监控总结篇

大前端洞见

大前端 监控 全链路监控

小论互联网项目管理

南方

项目管理 互联网 个人成长 碧海潮生曲

很不幸,自动化测试永远只能是必要非充分条件

刘华Kenneth

DevOps 敏捷 自动化 测试 金字塔

程序员陪娃漫画系列——修龙头

孙苏勇

程序员 生活 陪伴 漫画

回"疫"录(3):让人怀念的普通一天

小天同学

疫情 回忆录 现实纪录 纪实

程序员5分钟:你的程序占用了多少内存?

顾仲贤

程序员

Java并发编程系列插曲——对象的内存结构

孙苏勇

Java 内存模型 面向对象 ClassLayout

加班能解决交付的期望么?

拖地先生

项目管理 领导力 管理 时间管理

最近的一些人生感悟

小智

人生 哲学

Java并发编程系列——线程

孙苏勇

Java 并发编程 线程

聊聊苹果公司技术部门的宫斗和冷战

赵钰莹

程序员 外包 apple

程序员陪娃漫画系列——看医生

孙苏勇

程序员 生活 陪伴 漫画

决定我们认知深度的究竟是什么?

石君

深度思考 方法论 连接

如何阅读源码?

武培轩

Java 源码 面试 进阶 后端

程序员5分钟:你了解32位带符号的整型吗?

顾仲贤

程序员

Intel开源了基于Apache Spark的分布式深度学习框架BigDL_亚马逊云科技_Alexandre Rodrigues_InfoQ精选文章