写点什么

Mahout 通过可插拔的后端平台 Spark 和 Flink 获取自优化矩阵代数接口

  • 2014-12-16
  • 本文字数:896 字

    阅读完需:约 3 分钟

在柏林最近 GOTO 发布会,Mahout 的提交者 Sebastian Schelter 概述了 Mahout 中的最新进展,即持续努力为数据分析创造一个可扩展的基础,使其如R 或Python 一样易用。

Schelter 所述的主要目标是提供一种简单的基于 DSL(域特定语言)Scala 语言,它类似于 R 语言中的矩阵表示法,但又能提供集群的大矩阵分布式存储和并行计算的可能性。

Schelter 说到,最终的库将无缝地提供对本地和分布式矩阵的使用。Mahout 团队通过设计使得这个库不依赖于特定的平台,相反它有一个可插拔的后端以针对不同的平台。

Schelter 说,目前 Apache Spark (星火)发展最为快速,但是 Apache Flink ,另一个正在孵化的下一代大数据平台,也将在 Mahout 的考虑之中。

这种新结构的一个重要方面是提供不同操作的可能性,比如,基于涉及矩阵的大小来进行潜在的深入优化。根据 Schelter 所说,主要的设计目标是让数据科学家能够编写出可伸缩的代码,而不必过分担心并行的因素。这个演示页给出了结果界面的第一印象。

Apache Mahout 最初是在 Hadoop 之上实现一些机器学习算法的一个项目。它涵盖了分类,聚类,推荐和文档学习模型算法。到目前为止,这些算法是基于Hadoop 和MapReduce 的计算模型,而不是其它更灵活的模型,比如Apache Spark。Apache Spark 已经开始发展自己的机器学习库 mllib ,目前它涵盖的算法要比 Mahout 少,但他们的项目主页声称其算法要比 Mahout 快很多(译者注:这里是说基于 MapReduce 的 Mahout),这些改进是因为将计算移动到内存中以及更好地支持了迭代算法。

Mahout 开始不仅仅依靠 MapReduce,这正是其它各种各样分布式计算替代方法出现的时候。

谷歌自身前段时间已开始探索替代的计算方案,这其中包括 Percolator (咖啡滤壶),它允许谷歌在搜索的数据库上做增量更新,还有 Pregel (普雷格尔),一个专为分布式图形计算建立的系统。Pregel 反过来又导致了象 Apache Giraph 斯坦福大学GPS 的开源项目。

卡内基 - 梅隆大学开发的GraphLab 是可替代另一种工具箱,它提供了各种各样的机器学习算法的分布式实现。

查看英文原文: Mahout to Get Self-Optimizing Matrix Algebra Interface with Pluggable Backends for Spark and Flink

2014-12-16 00:422185

评论

发布
暂无评论
发现更多内容

spring-kafka中ContainerProperties.AckMode详解

百度搜索:蓝易云

征程6 NV12 理论与代码详解

地平线开发者

自动驾驶; 算法、

三节点TiDB 集群内存控制文档

TiDB 社区干货传送门

这款产品连续三年被选为“未来你想使用的数据库”第一名

TiDB 社区干货传送门

数据库架构选型 数据库前沿趋势

mysql索引概念、定义和使用

百度搜索:蓝易云

Java(day15):while循环语句

百度搜索:蓝易云

Python中的​​display​​​函数from IPython.display import display

百度搜索:蓝易云

centos下Makefile独立模块编译ko

百度搜索:蓝易云

Ubuntu中设置代理的方式

百度搜索:蓝易云

工作目标管理软件选型指南:9款推荐

爱吃小舅的鱼

工作目标管理软件

安卓AI虚拟女友项目开发之智能语音-语音唤醒应用功能开发

陆通

如何选择工作日程管理系统?9款工具指南

爱吃小舅的鱼

工作日程管理工具

全面图解Docker架构设计:掌握Docker全链路思维/实战/优化(小白到大师篇[1])

肖哥弹架构

Docker DevOps 效能

通过curl命令分析http接口请求各阶段的耗时等

百度搜索:蓝易云

Tomcat服务启动失败:java.lang.OutOfMemoryError: Java heap space

百度搜索:蓝易云

Nacos改为MySQL数据源报错:No DataSource set

百度搜索:蓝易云

征程6 工具链常用工具和API 整理

地平线开发者

自动驾驶 算法

2024年9月文章一览

codists

编程人

哪款多任务管理系统适合你?2024年10大选择

爱吃小舅的鱼

多任务管理系统

TiDB排行再升5位;盘点平凯数据库的发明专利(2024上半年公布)

TiDB 社区干货传送门

数据库架构选型

全面图解Docker架构设计:掌握Docker全链路思维/实战/优化(小白到大师篇[2])

肖哥弹架构

Docker DevOps

哪些工作计划管理软件适合团队协作?10款详解

爱吃小舅的鱼

工作计划管理软件

FinOps现状分析:行业趋势与未来展望

雅菲奥朗

FinOps 云成本管理 FinOps 认证 云财务管理

ICT项目系统全解析:选型、使用与优势大对比

爱吃小舅的鱼

项目管理 ICT

安卓AI数字虚拟人项目实战之Android开发环境搭建

陆通

yolov5模型s,l,m,x的区别

百度搜索:蓝易云

从0到1:培训机构排课小程序开发笔记一

CC同学

FinOps三人行:云计算时代的FinOps 反模式和SRE(文字+视频版)

雅菲奥朗

云计算 SRE FinOps FinOps 认证 FinOps 培训

你不知道的Requests进阶技巧:用Retry实现完美重试

LLLibra146

python 爬虫 requests urllib retry

哪些工作管理系统适合团队协作?9款工具推荐

爱吃小舅的鱼

工作管理系统

AI大模型技术前沿:人工智能大模型应用工程师如何塑造行业未来?

雅菲奥朗

人工智能 大模型 人工智能工程师 人工智能工程师培训 人工智能大模型应用工程师

Mahout通过可插拔的后端平台Spark和Flink获取自优化矩阵代数接口_开源_Mikio Braun_InfoQ精选文章