报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

Mahout 通过可插拔的后端平台 Spark 和 Flink 获取自优化矩阵代数接口

  • 2014-12-16
  • 本文字数:896 字

    阅读完需:约 3 分钟

在柏林最近 GOTO 发布会,Mahout 的提交者 Sebastian Schelter 概述了 Mahout 中的最新进展,即持续努力为数据分析创造一个可扩展的基础,使其如R 或Python 一样易用。

Schelter 所述的主要目标是提供一种简单的基于 DSL(域特定语言)Scala 语言,它类似于 R 语言中的矩阵表示法,但又能提供集群的大矩阵分布式存储和并行计算的可能性。

Schelter 说到,最终的库将无缝地提供对本地和分布式矩阵的使用。Mahout 团队通过设计使得这个库不依赖于特定的平台,相反它有一个可插拔的后端以针对不同的平台。

Schelter 说,目前 Apache Spark (星火)发展最为快速,但是 Apache Flink ,另一个正在孵化的下一代大数据平台,也将在 Mahout 的考虑之中。

这种新结构的一个重要方面是提供不同操作的可能性,比如,基于涉及矩阵的大小来进行潜在的深入优化。根据 Schelter 所说,主要的设计目标是让数据科学家能够编写出可伸缩的代码,而不必过分担心并行的因素。这个演示页给出了结果界面的第一印象。

Apache Mahout 最初是在 Hadoop 之上实现一些机器学习算法的一个项目。它涵盖了分类,聚类,推荐和文档学习模型算法。到目前为止,这些算法是基于Hadoop 和MapReduce 的计算模型,而不是其它更灵活的模型,比如Apache Spark。Apache Spark 已经开始发展自己的机器学习库 mllib ,目前它涵盖的算法要比 Mahout 少,但他们的项目主页声称其算法要比 Mahout 快很多(译者注:这里是说基于 MapReduce 的 Mahout),这些改进是因为将计算移动到内存中以及更好地支持了迭代算法。

Mahout 开始不仅仅依靠 MapReduce,这正是其它各种各样分布式计算替代方法出现的时候。

谷歌自身前段时间已开始探索替代的计算方案,这其中包括 Percolator (咖啡滤壶),它允许谷歌在搜索的数据库上做增量更新,还有 Pregel (普雷格尔),一个专为分布式图形计算建立的系统。Pregel 反过来又导致了象 Apache Giraph 斯坦福大学GPS 的开源项目。

卡内基 - 梅隆大学开发的GraphLab 是可替代另一种工具箱,它提供了各种各样的机器学习算法的分布式实现。

查看英文原文: Mahout to Get Self-Optimizing Matrix Algebra Interface with Pluggable Backends for Spark and Flink

2014-12-16 00:422320

评论

发布
暂无评论
发现更多内容

【mybatis-plus】什么是乐观锁?如何实现“乐观锁”

Java架构师迁哥

史上最全1000道Java高频面试题:集合、IO流、多线程、网络、算法、Git、设计模式、springboot

Java架构之路

Java 程序员 架构 面试 编程语言

2021年阿里、腾讯、百度、华为、京东、美团和滴滴最新Java面试题汇集!

Java架构之路

Java 程序员 架构 面试 编程语言

微服务网关的技术架构

积极&丧

第十周学习总结

晴空万里

极客大学架构师训练营

区块链发展的3个必经阶段究竟是什么

CECBC

去中心化

久等了,Rancher 2.5中文文档新鲜出炉

Rancher

容器 k8s

面试被问:JDBC底层是如何连接数据库的?

田维常

JDBC

一个月吃透这份阿里高级专家的《Java500道面试手册》成功拿下了腾讯offer!

Java架构之路

Java 程序员 架构 面试 编程语言

职责链模式

soolaugust

设计模式 七日更 职责链模式

第五周作业

胡益

附PPT丨广东移动智慧中台能力运营实践

dbaplus社群

中台 中台战略

JustSwap交易所系统APP开发|JustSwap交易所软件开发

系统开发

Presto入门

Albert

presto 七日更

金融知识图谱的构建与应用

DataFunTalk

AI 知识图谱

北漂七年Java开发的一路辛酸史:面试腾讯、阿里、美团、字节后的一点心得

Java架构之路

Java 程序员 架构 面试 编程语言

浅谈优秀工程师的成长因素

数据社

程序员 七日更

Spring源码高级笔记之——Spring AOP应用

Java架构师迁哥

星环科技作为信通院隐私计算联盟成员亮相2020数据资产管理大会

星环科技

大数据

京东技术解密

田维常

京东

第五周命题作业

cc

如何使用数据仓库?

数据社

数据仓库 七日更

字节跳动自研「BVC2.0」视频编码器在 MSU 2020 中获得四项第一

字节跳动技术团队

字节跳动 视频编码

第十周课后练习

晴空万里

极客大学架构师训练营

反垄断之下 区块链迎来新生?

CECBC

区块链

华为大佬亲自手码Dubbo服务暴露源码解析!这次够清楚了吧

比伯

Java 编程 架构 程序人生 计算机

TypeScript | 第六章:理解声明合并,以及编写声明文件

梁龙先森

typescript 大前端 七日更

大厂offer直通车:并发编程28题+JVM21题+Redis 16题+Java集合22题

Java架构之路

Java 程序员 架构 面试 编程语言

第五周学习心得

cc

亚马逊 CTO 预测 2021 将改变世界的八大技术趋势:云加速向边缘推进

亚马逊云科技 (Amazon Web Services)

云计算 AWS

“区块链+”产业生态雏形已现 安全监管逐步完善

CECBC

区块链 区块链生态

Mahout通过可插拔的后端平台Spark和Flink获取自优化矩阵代数接口_开源_Mikio Braun_InfoQ精选文章