点击围观!腾讯 TAPD 助力金融行业研发提效、敏捷转型最佳实践! 了解详情
写点什么

Mahout 与 Weka 的对比

  • 2014-11-26
  • 本文字数:954 字

    阅读完需:约 3 分钟

随着机器学习热度的不断提高,与其相关的软件和工具也慢慢进入大家的视野,而 Weka 和 Mahout 无疑是这些工具中较为流行的两个。作为一款知名的老牌机器学习软件,Weka 支持经典的数据挖掘任务,同时还有大量的扩展包,可以支持文本挖掘、可视化和网格计算等功能。Mahout 则是 Apache 软件基金会旗下的一个开源项目,它提供了一些机器学习领域中的经典算法实现,支持 Apache Hadoop,能够高效地运行在云计算环境中。那么它们之间的最大不同在哪,我们该如何选择呢?最近 algorithmia 的团队发表了一篇《机器学习对决:Apache Mahout vs Weka 》的文章,对这两者做了比较。

功能层面,Weka 包含大量经过良好优化的机器学习和数据分析算法,可以处理与格式化、数据转换相关的各种任务,唯一的不足就是它对内存敏感的大数据处理的不好。而Mahout 则为大数据而生,作为一个新生的数据挖掘工具,它所支持的算法与Weka 相比依然很少,相关文档的质量也良莠不齐,但是它的优势在于不仅支持单机环境,还支持MapReduce 分布式计算,能够应对Weka 无法处理的大数据。

性能方面,algorithmia 通过使用两个工具都支持的算法(随机森林)对同一个数据集进行分类做了对比。结果显示,Weka 的最优准确率为99.39%(250 棵树),而Mahout 为95.89%(100 棵树),同时该实验也显示树的数量对Mahout 的分类准确率影响很小。

algorithmia 上的这篇文章在 Hacker News 上引发了广泛的讨论 jackhammer 说:

“现在,大部分数据科学家都在使用 scikit-learn 或者 R。Weka 真的已经过时了。Mahout 和 MLlib 使用起来比较难。通常,我们最好只是采样,或者租用一个内存充足的 EC2 实例。”

discardorama 则认为:

“Mahout 的力量在于它对大数据的并行处理能力,Weka 则是为了处理较小的问题或者是在实验中使用,但是无论如何现在已经很少用了。Mahout 和 Weka 都不是主流,对于大规模的分类,人们现在使用 VW ,对于小规模的实验,使用 Scikit 或者 R。”

akbar501 回复说:

“对于机器学习而言,Spark MLlib 是一个必然的选择。对于大规模、分布式的数据,我会使用 SparkR。”


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-11-26 08:156514
用户头像

发布了 321 篇内容, 共 113.0 次阅读, 收获喜欢 17 次。

关注

评论

发布
暂无评论
发现更多内容

又双叒叕一行代码:Map按值排序

FunTester

Java 排序 map LinkedHashMap

什么是共识?(理论篇)

趣链科技

音视频开发进阶指南,最新大厂Android校招面试经验汇总

欢喜学安卓

android 程序员 面试 移动开发

基于Spring Boot+Security+Redis权限管理系统,权限控制采用RBAC

Java架构追梦

Java 源码 架构师 springboot 权限管理系统

深入原生冰山安全体系,详解华为云安全服务如何构筑全栈安全

华为云开发者联盟

容器 数据安全 云安全 Web应用防火墙 华为云安全

[入门必读]TcaplusDB数据库常见问题解决及诊断技巧集锦-信息咨询类(2)

数据人er

数据库 nosql TcaplusDB

已收藏!深入浅出Android性能调优

欢喜学安卓

android 程序员 面试 移动开发

腾讯云 TRTC 这次玩大了!冲出国门联手日本直播平台.yell Live打造在线直播互动能力

腾讯云音视频

面试阿里太难了!二本毕业、两年crud经验,侥幸通过面试定级P6

Java 程序员 架构 面试

虚拟币合约交易所搭建,永续合约平台搭建

955.WLB 不加班公司名单!再新增 5 家公司!

程序员生活志

年包70W,五轮拿下阿里Offer,全靠阿里内部整理的面试指南(真题分享)

Java 程序员 架构 面试

FIL的最新消息?FIL的价格还能回到150吗?

区块链 分布式存储 IPFS fil挖矿最新消息? fil价格

加油站三维可视化监控系统,安全管理智慧运营

一只数据鲸鱼

数据可视化 智慧城市 3D可视化 数字孪生 加油站

我看JAVA 之 垃圾回收GC

awen

Java JVM 垃圾回收 GC

TcaplusDB君 · 行业新闻汇编(7月20日)

数据人er

数据库 nosql 游戏 tencentdb TcaplusDB

为什么别的程序员能月薪 20k ,而你一个月只能拿 6K 的低保?差别就在这!

白亦杨

Java 编程 程序员 技术宅

为什么别的程序员能月薪 20k ,而你一个月只能拿 6K 的低保?差别就在这!

Java 编程 程序员 技术宅

[入门必读]TcaplusDB数据库常见问题解决及诊断技巧集锦-数据库使用类(1)

数据人er

数据库 nosql tencentdb TcaplusDB

简单好用的照片恢复软件推荐

淋雨

EasyRecovery 文件恢复 硬盘数据恢复

亿万级信令服务演化

anyRTC开发者

音视频 实时通信 实时消息

流程审批系统如何通过低代码平台实现?

优秀

低代码 流程审批系统

终于有10年阿里老兵把SpringCloud微服务实战经验全总结出来了

进击的王小二

Java 架构 微服务 Spring Cloud

ZooKeeper 分布式锁 Curator 源码 02:可重入锁重复加锁和锁释放

程序员小航

源码 分布式锁 zookeeper分布式锁 curator

聊聊 Web Workers 吧

Faye

JavaScript 大前端

PHA矿机挖矿系统搭建

Geek_23f0c3

区块链 云算力模式系统开发源码 PHA矿机挖矿

浅谈:前端路由原理解析及实践

尔达Erda

开源 云原生 大前端 UI 路由器

Mahout与Weka的对比_语言 & 开发_孙镜涛_InfoQ精选文章