写点什么

Intel 开源了基于 Apache Spark 的分布式深度学习框架 BigDL

  • 2017-01-18
  • 本文字数:785 字

    阅读完需:约 3 分钟

Intel 开源了基于 Apache Spark 的分布式深度学习框架 BigDL 。BigDL 借助现有的 Spark 集群来运行深度学习计算,并简化存储在 Hadoop 中的大数据集的数据加载。

Xeon 服务器上运行的测试结果表明,BigDL 比其他开源框架 Caffe Torch TensorFlow 有显著的性能提升。BigDL 速度可与主流 GPU 匹敌,而且能够扩展到数十个 Xeon 服务器。

BigDL 库支持 Spark 1.5、1.6 和 2.0 版本,并容许将深度学习嵌入在现有的 Spark 程序中。BigDL 库中有把 Spark RDDs 转换为 BigDL DataSet 的方法,并且可以直接与 Spark ML Pipelines 一起使用。

对于模型训练,BigDL 使用了在多个执行器中执行单个 Spark 任务的同步小批量 SGD( Stochastic Gradient Descent )。每个执行器运行一个多线程引擎并处理一部分微批次数据。在当前版本中,所有的训练和验证数据都存储到存储器中。

BigDL 使用 Scala 开发,并参考了 Torch 的模型。像 Torch 一样,它有一个使用 Intel MKL 库进行计算的 Tensor 类。Intel MKL(Math Kernel Library)是由一系列为计算优化过的小程序所组成的库,这些小程序从 FFT (快速傅立叶变换)到矩阵乘法均有涉及,常用于深度学习模型训练。Module 是另一个从 Torch 借鉴而来的概念,它的灵感来自 Torch 的 nn package 。Module 代表单独的神经网络层、 Table Criterion

BigDL 提供了一个 AWS EC2 镜像和一些示例,比如使用卷积神经网络进行文本分类,还有图像分类以及如何将在Torch 或Caffe 中预训练过的模型加载到 Spark 中进行预测计算。来自社区的请求主要包括提供对 Python 的支持和 MKL-DNN (MKL 的深度学习扩展)。

查看英文原文 Intel Open-Sources BigDL, Distributed Deep Learning Library for Apache Spark


感谢薛命灯对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-01-18 18:005333
用户头像

发布了 22 篇内容, 共 62580 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

直播预告|OceanBase 社区版 4.0 全解析

OceanBase 数据库

阿里云产品经理刘宇:Serverless 的前世今生

云布道师

阿里云 Serverless 云原生

技术分享 | 测试人员必须掌握的测试用例

霍格沃兹测试开发学社

比DataX快20%!SeaTunnel同步计算引擎性能测试全新发布

Apache SeaTunnel

spark DataX Seatunnel 数据集成平台 数据引擎

OceanBase 首席科学家阳振坤博士入选2022 年度“CCF王选奖”

OceanBase 数据库

web技术分享| 日期选择限制组件二次封装

anyRTC开发者

Vue 前端 Web Element

Docker发布/上传镜像到dockerhub&&下载/拉取镜像&&删除dockerhub镜像

A-刘晨阳

Docker Linux 运维 11月月更

聊聊Vuex原理

yyds2026

Vue

使用SQL加密函数实现数据列的加解密

华为云开发者联盟

大数据 后端 华为云 数据加密

PLC与SCADA的什么区别和联系

2D3D前端可视化开发

物联网 PLC 工业控制 web组态 SCADA

带你了解S12直播中的“黑科技”

华为云开发者联盟

云计算 后端 音视频 华为云 实时直播

[力扣] 剑指 Offer 第二天 - 反转链表

陈明勇

Go 数据结构与算法 力扣 11月月更

SREWorks v1.3 版本发布 | 插件机制发布

阿里云大数据AI技术

大数据 运维 插件

多视角碰撞,探索 Serverless 企业落地更多可能性丨阿里云用户组厦门站

云布道师

阿里云 云原生

OKR之剑·实战篇03:OKR的跟踪需要有“自己”的节奏

vivo互联网技术

团队管理 OKR 目标管理

数据库独角兽SingleStore:没有HTAP,机器学习和人工智能都是不切实际的

StoneDB

数据库 开源 HTAP StoneDB SingleStore

count(*)查询性能很差?用这5招轻松优化

小小怪下士

Java 程序员 后端

【LeetCode】字符串相加Java题解

Albert

算法 LeetCode 11月月更

查看、校验、归档…带你掌握openGauss账本数据库

华为云开发者联盟

数据库 后端 华为云

软件测试 | 测试人员必须掌握的测试用例

测试人

软件测试 自动化测试 测试开发 测试用例

使用 SAP Cloud Application Programming 编程模型开发一个图书管理 OData 服务

汪子熙

云原生 CAP SAP 企业级应用 11月月更

[力扣] 剑指 Offer 第二天 - 从尾到头打印链表

陈明勇

Go 数据结构与算法 力扣 11月月更

计算机网络:以太网与IEEE 802.3

timerring

计算机网络 11月月更

最佳实践 | 用腾讯云AI人像变换给自己一次“跨越年龄的体验”

牵着蜗牛去散步

人工智能 腾讯云 腾讯 腾讯云AI

Dive into TensorFlow系列(2)- 解析TF核心抽象op算子

京东科技开发者

tensorflow TF2 Tensor Op

实时云渲染vs本地渲染,哪个更好用?

Finovy Cloud

云渲染 实时云渲染

docker修改容器的端口、容器名、映射地址......

A-刘晨阳

Docker Linux 运维 11月月更

彻底搞懂Vue虚拟Dom和diff算法

yyds2026

Vue

HummerRisk V0.5.1 发布:新增对象存储、优化K8s 资源态势和资源拓扑等

HummerCloud

Kubernetes 云原生 云安全 云原生安全

Docker——denied: requested access to the resource is denied问题以及解决方法

A-刘晨阳

Docker Linux 运维 11月月更

vue的几个提效技巧

yyds2026

Vue

Intel开源了基于Apache Spark的分布式深度学习框架BigDL_亚马逊云科技_Alexandre Rodrigues_InfoQ精选文章