飞天发布时刻:2024年 Forrester 公有云平台Wave™评估报告解读 了解详情
写点什么

DMLC:最大开源分布式机器学习项目

  • 2015-06-04
  • 本文字数:852 字

    阅读完需:约 3 分钟

为了实现分布式机器学习领域中代码的共享与共同开发,分布式机器学习社区(DMLC)近日正式发布。作为一个开源项目,DMLC 的相关代码直接托管在 GitHub 中,并采用 Apache2.0 协议进行维护。DMLC 项目的发起者陈天奇怪(网名)表示,项目最初的想法是减少分布式机器学习开发的成本以及新算法被大家接受测试的时间。目前,该项目已经集成了XGBoost、CXXNET 及Minerva 等机器学习库与rabit 和参数服务器等系统组件。接下来,本文就对这些基础库及组件进行简单介绍。

XGBoost 是一个大规模、分布式的通用 Gradient Boosting(GBDT、TBRT 或者 GBM)库。它在 Gradient Boosting 的框架下实现了 GBDT 和广义线性模型等机器学习算法。通过采用分布式计算方法,XGBoost 能够明显加快算法中迭代运算的速度。而作为一个快速、精确的分布式深度学习框架, CXXNET 主要具有轻量、支持多 GPU 和分布式并行系统、非常好的可扩展性以及与其他语言之间的接口清晰等特性。它使用 mshadow 库为用户提供了良好的编程体验和高效的工作能力。与 CXXNET 不同的是, Minerva 提供了一个高效灵活的并行深度学习引擎。它提供了一个类似 Numpy 的 NDarray 编程接口,并支持 Python 和 C++ 语言。其天然的并行性保证了其能够高效地利用多 GPU 进行相关计算。

rabit 是一个提供 Allreduce 和 Broadcast 容错接口的轻量通信框架。它简化了 MPI 的设计,在 Allreduce 和 Boradcast 操作的基础上加入了容灾的支持。其最大的特点在于可移植、可扩展以及非常可靠。另外一个通信框架——参数服务器(Parameter Server),主要负责对 XGBoost 等应用提供分布式的系统支持。它支持工作机与服务器之间的异步、零拷贝键值对的通信。异步的参数服务器接口加上同步的 Rabit 接口基本能够满足各种分布式机器学习算法中的通信需求。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-06-04 09:4511290
用户头像

发布了 268 篇内容, 共 126.9 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

轻量级 Kubernetes 多租户方案的探索与实践

火山引擎开发者社区

Kubernetes 云原生

我们需要一个元宇宙吗?

涛哥 数字产品和业务架构

元宇宙

云原生训练营 -Week10

jjn0703

云原生训练营

架构实战营 - 第 6 期 模块四课后作业

乐邦

「架构实战营」

元宇宙是人类的终极未来吗?

涛哥 数字产品和业务架构

元宇宙

阿里云发布企业云原生IT成本治理方案:五大能力加速企业 FinOps 进程

阿里巴巴云原生

阿里云 云原生 FinOps

企评家|河南豫能控股股份有限公司的企业成长性报告简述

企评家

面由 AI 生|虚拟偶像“捏脸”技术解析

ZEGO即构

计算机视觉 虚拟偶像 Avatar AI捏脸

开发、运维、业务都说好的全栈云原生长这样!

York

云原生 系统架构 全栈

提前起跑的OPPO,靠闪充完成一次“三级跳”

脑极体

微信小程序开发系列 (三) :微信小程序如何响应用户点击事件和微信平台 API 的使用方法介绍

汪子熙

微信小程序 微信公众平台 前端开发 4月月更 微信平台

苹果手机怎么恢复备份?iOS备份恢复教程

茶色酒

苹果手机备份

ArrayList和SubList的坑面试题

芝士味的椒盐

Java 面试题 Java 开发

业务架构师的思维转变

涛哥 数字产品和业务架构

LAXCUS分布式操作系统如何保障系统安全

LAXCUS分布式操作系统

软件系统安全 量子攻击 分布式软件系统

KubeVela 1.3 发布:开箱即用的可视化应用交付平台,引入插件生态、权限认证、版本化等企业级新特性

阿里巴巴云原生

阿里云 开源 云原生 KubeVela

浅谈MatrixOne如何用Go语言设计与实现高性能哈希表

MatrixOrigin

golang 哈希表 MatrixOrigin MatrixOne 矩阵起源

企评家,企业评价助力新三板企业健康发展

企评家

微信小程序开发系列 (二) :微信小程序的单步调试和控制器实现步骤概述

汪子熙

微信小程序 前端开发 MVVM 微信开发 4月月更

时序数据库 vs OLAP

CnosDB

IoT 时序数据库 开源社区 CnosDB infra

Mysql应用开发规范

阿丞

MySQL

企业架构的7个关键趋势

涛哥 数字产品和业务架构

企业架构

企评家企业大数据,实现6种应用的场景

企评家

Plato Farm的“P2E”经济模型,赚取更多的MARK是关键

BlockChain先知

元宇宙(Metaverse)对普通人意味着什么?

涛哥 数字产品和业务架构

元宇宙

元宇宙或许翻译错了

涛哥 数字产品和业务架构

元宇宙

[Day24]-[二叉树] 相同树

方勇(gopher)

LeetCode 二叉树 DFS BFS 数据结构算法

组织能力建设为啥这么难

凌晞

组织活力 组织建设

Dio 封装之金屋藏娇

岛上码农

flutter ios开发 安卓开发 4月月更 跨平台开发

redis优化系列(四)哨兵机制

乌龟哥哥

4月月更

DMLC:最大开源分布式机器学习项目_GitHub_张天雷_InfoQ精选文章