开工福利|免费学 2200+ 精品线上课,企业成员人人可得! 了解详情
写点什么

Mahout 通过可插拔的后端平台 Spark 和 Flink 获取自优化矩阵代数接口

  • 2014-12-16
  • 本文字数:896 字

    阅读完需:约 3 分钟

在柏林最近 GOTO 发布会,Mahout 的提交者 Sebastian Schelter 概述了 Mahout 中的最新进展,即持续努力为数据分析创造一个可扩展的基础,使其如R 或Python 一样易用。

Schelter 所述的主要目标是提供一种简单的基于 DSL(域特定语言)Scala 语言,它类似于 R 语言中的矩阵表示法,但又能提供集群的大矩阵分布式存储和并行计算的可能性。

Schelter 说到,最终的库将无缝地提供对本地和分布式矩阵的使用。Mahout 团队通过设计使得这个库不依赖于特定的平台,相反它有一个可插拔的后端以针对不同的平台。

Schelter 说,目前 Apache Spark (星火)发展最为快速,但是 Apache Flink ,另一个正在孵化的下一代大数据平台,也将在 Mahout 的考虑之中。

这种新结构的一个重要方面是提供不同操作的可能性,比如,基于涉及矩阵的大小来进行潜在的深入优化。根据 Schelter 所说,主要的设计目标是让数据科学家能够编写出可伸缩的代码,而不必过分担心并行的因素。这个演示页给出了结果界面的第一印象。

Apache Mahout 最初是在 Hadoop 之上实现一些机器学习算法的一个项目。它涵盖了分类,聚类,推荐和文档学习模型算法。到目前为止,这些算法是基于Hadoop 和MapReduce 的计算模型,而不是其它更灵活的模型,比如Apache Spark。Apache Spark 已经开始发展自己的机器学习库 mllib ,目前它涵盖的算法要比 Mahout 少,但他们的项目主页声称其算法要比 Mahout 快很多(译者注:这里是说基于 MapReduce 的 Mahout),这些改进是因为将计算移动到内存中以及更好地支持了迭代算法。

Mahout 开始不仅仅依靠 MapReduce,这正是其它各种各样分布式计算替代方法出现的时候。

谷歌自身前段时间已开始探索替代的计算方案,这其中包括 Percolator (咖啡滤壶),它允许谷歌在搜索的数据库上做增量更新,还有 Pregel (普雷格尔),一个专为分布式图形计算建立的系统。Pregel 反过来又导致了象 Apache Giraph 斯坦福大学GPS 的开源项目。

卡内基 - 梅隆大学开发的GraphLab 是可替代另一种工具箱,它提供了各种各样的机器学习算法的分布式实现。

查看英文原文: Mahout to Get Self-Optimizing Matrix Algebra Interface with Pluggable Backends for Spark and Flink

2014-12-16 00:422255

评论

发布
暂无评论
发现更多内容

阿里实录:一个优秀的分布式系统该如何去设计?

Java架构师迁哥

[译] R8 优化: 枚举的 Ordinals 和 Names

Antway

6月日更

一矢多穿:多目标排序在爱奇艺短视频推荐中的应用

爱奇艺技术产品团队

推荐 模型 多目标

内卷把我逼成了“扫地僧”把Github上所有面试题都整理了一遍,足足24W字!

Java架构师迁哥

百度智能云在AI云服务市场四度夺魁!

百度大脑

人工智能 云服务

百度智能云以端边云全面智能化的天工AIoT平台2.0打造智能物联网解决方案

百度大脑

人工智能 物联网

北鲲云:浅谈云计算与高性能计算的区别与联系

北鲲云

公安局情指勤合成作战平台解决方案,合成指挥调度系统

领导说PHP已经过时了,让我滚!!

网络安全学海

php 网络安全 信息安全 渗透测试 安全漏洞

Github自爆:阿里内部SpringBoot学习笔记,学完直接进大厂

Java架构师迁哥

Redis主从复制、Sentinel、集群总结

Hex

redis 后端 Redis 核心技术与实战

老夫整理的1000行MySQL学习笔记,等待有缘人

Java架构师迁哥

高性能计算在人工智能(AI)智药中的应用

北鲲云

2021-06-25 从简书迁移来到InfoQ首文

林建

【得物技术】得物社区实践

得物技术

dubbo dubbo-go 社区 Go 语言 融合

敏捷项目管理是不是可以缩短项目周期,或者说“敏捷就是快”?

万事ONES

项目管理 敏捷开发 ONES 项目管理工具

敏捷项目管理实践,如何正确使用故事点预估工作量?

万事ONES

项目管理 敏捷开发 ONES

压缩微指令长度方法

若尘

计算机组成原理 6月日更

前端 JavaScript 获取字符串中重复次数最多的字符

编程三昧

JavaScript 大前端 数组 指针思想

有没有字节工牌,Java并发安全的根本原因都得懂

慕枫技术笔记

Java 高并发

解析 Nebula Graph 子图设计及实践

NebulaGraph

数据库 图数据库 子图

程序员的职业规划怎么做?7年老程序员的一份人生总结

学神来啦

程序员 日常 架构师

B站收藏 12.5w+!GitHub 标星 6.6k+!这份文档拯救了我薄弱的计算机基础

Java架构师迁哥

做好项目管理,项目经理应当掌握哪些技能?

万事ONES

项目管理 ONES 项目经理

6月GitHub上star涨得最多的repo盘点

北游学Java

GitHub

CHM源码阅读(jdk1.7)

周周

5G时代,视频会议的未来

anyRTC开发者

音视频 WebRTC 视频会议

阿里巴巴出品:完美杜绝备战一个月面试10分钟,让Java面试从此不再难

Java架构师迁哥

B 站游戏技术平台微服务通用网关实践

bilibili游戏技术

微服务 openresty APISIX 通用网关

带老弟做项目,凉了

程序员鱼皮

Java c++ Python JavaScript 技术

《Spring Framework 系列》- IOC

公众号:程序猿成神之路

ioc Spring Framework

Mahout通过可插拔的后端平台Spark和Flink获取自优化矩阵代数接口_开源_Mikio Braun_InfoQ精选文章