写点什么

Intel 开源了基于 Apache Spark 的分布式深度学习框架 BigDL

  • 2017-01-18
  • 本文字数:785 字

    阅读完需:约 3 分钟

Intel 开源了基于 Apache Spark 的分布式深度学习框架 BigDL 。BigDL 借助现有的 Spark 集群来运行深度学习计算,并简化存储在 Hadoop 中的大数据集的数据加载。

Xeon 服务器上运行的测试结果表明,BigDL 比其他开源框架 Caffe Torch TensorFlow 有显著的性能提升。BigDL 速度可与主流 GPU 匹敌,而且能够扩展到数十个 Xeon 服务器。

BigDL 库支持 Spark 1.5、1.6 和 2.0 版本,并容许将深度学习嵌入在现有的 Spark 程序中。BigDL 库中有把 Spark RDDs 转换为 BigDL DataSet 的方法,并且可以直接与 Spark ML Pipelines 一起使用。

对于模型训练,BigDL 使用了在多个执行器中执行单个 Spark 任务的同步小批量 SGD( Stochastic Gradient Descent )。每个执行器运行一个多线程引擎并处理一部分微批次数据。在当前版本中,所有的训练和验证数据都存储到存储器中。

BigDL 使用 Scala 开发,并参考了 Torch 的模型。像 Torch 一样,它有一个使用 Intel MKL 库进行计算的 Tensor 类。Intel MKL(Math Kernel Library)是由一系列为计算优化过的小程序所组成的库,这些小程序从 FFT (快速傅立叶变换)到矩阵乘法均有涉及,常用于深度学习模型训练。Module 是另一个从 Torch 借鉴而来的概念,它的灵感来自 Torch 的 nn package 。Module 代表单独的神经网络层、 Table Criterion

BigDL 提供了一个 AWS EC2 镜像和一些示例,比如使用卷积神经网络进行文本分类,还有图像分类以及如何将在Torch 或Caffe 中预训练过的模型加载到 Spark 中进行预测计算。来自社区的请求主要包括提供对 Python 的支持和 MKL-DNN (MKL 的深度学习扩展)。

查看英文原文 Intel Open-Sources BigDL, Distributed Deep Learning Library for Apache Spark


感谢薛命灯对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-01-18 18:005319
用户头像

发布了 22 篇内容, 共 62207 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

明天,龙蜥2位专家直播,第22届计算机系统会议等活动来了!

OpenAnolis小助手

Linux 开源 直播 内核 龙蜥技术

druid源码学习十

Nick

Apache Druid

使用 Provider 实现 Flutter 多组件的状态共享

岛上码农

flutter 安卓开发 ios 开发 跨平台应用 5月月更

代码之外:校招该如何准备开发项目

宇宙之一粟

校招 项目开发 5月月更

druid 源码阅读 10—— 过一下流程图中的getConnectionDirect

张大彪

Kitex 源码解析活动发布!

baiyutang

Go 字节跳动 微服务 5月月更

Druid 连接池源码阅读 10

石小天

Docker下Java文件上传服务三部曲之三

程序员欣宸

Java Docker 5月月更

数据库连接池 -Druid 源码学习(十)

wjchenge

Druid 数据库连接池

零基础学Java第四节(字符串相关类)

编程攻略

java编程

Amazon MSK Serverless 现已正式推出,无需再为托管式 Kafka 集群进行容量规划

亚马逊云科技 (Amazon Web Services)

kafka Serverless

如何在你的 wordpress 网站中添加搜索框?

海拥(haiyong.site)

WordPress 5月月更

半年面试数百场,我总结出了这份10w字Java面试复盘笔记

Java全栈架构师

Java spring 程序员 架构 面试

青藤入选信通院“数据安全推进计划”成员单位

青藤云安全

数据安全 信通院

Redis「9」主从、高可用性方案

Samson

redis 学习笔记 5月月更

大家谈的视频体验指标,都有哪些?如何测定?

RTE开发者社区

视频 Qoe Dev for Dev

windows下C语言使用curl库访问HTTP下载文件

DS小龙哥

5月月更

JSON在线对比差异工具

入门小站

工具

SysAK 应用抖动诊断篇—— eBPF又立功了! | 龙蜥技术

OpenAnolis小助手

Linux 工具 内核 ebpf 龙蜥技术

linux之awk使用技巧

入门小站

css基本概念学习篇【四】

恒山其若陋兮

5月月更

在线HTML转TSV工具

入门小站

工具

Vite 与 Vue Cli 对比 - 尤雨溪: Vite 会取代 vue-cli 吗?

蒋川

Vue vite vue cli

大模型走向产业的一小步,AI走向普惠的一大步

脑极体

druid 源码阅读(十一)maxWait 参数

爱晒太阳的大白

5月月更

Tech Talk 活动回顾|化“被动”为“主动”,如何构建安全合规的智能产品

亚马逊云科技 (Amazon Web Services)

产品 安全 解决方案

极速调取客户保单,YRCloudFile 助力保险存储架构升级

焱融科技

AI 存储 NAS 数字金融

【LeetCode】数组中的第K个最大元素Java题解

Albert

LeetCode 5月月更

数据结构之时间复杂度和空间复杂度

芒果酱

数据结构 算法 5月月更

【中国信通院 x ShardingSphere 金融用户社区】成立,多家知名金融机构正式入驻

SphereEx

Apache 数据库 开源 ShardingSphere SphereEx

设计者模式之装饰者模式

乌龟哥哥

5月月更

Intel开源了基于Apache Spark的分布式深度学习框架BigDL_亚马逊云科技_Alexandre Rodrigues_InfoQ精选文章