写点什么

你的大数据项目使用的工具正确吗?

  • 2016-03-31
  • 本文字数:1185 字

    阅读完需:约 4 分钟

工具/产品/解决方案是数据科学家洞察数据的利器。 KDNuggets 网站对此观点进行了年度调查,来分析数据科学家在用哪些类型的工具,并提供了调查的匿名原始数据

通过主成分析(PCA)法进行降维分析

对所有的工具同时进行关系分析,常规来说,PCA 通过对大样本数据统计性质(eg, 协方差)的分析,试图用主要特征来解释关系。

分析结果:

当前分析的目标:通过一些主成分来分析 95 种工具之间的关系。最终决定以 PCA 的特征值来决定主成分的数目,这里选用了两种规则:一种是以特征值大于 1 的特征值数量来选择主成分数量;一种是画陡坡图(scree plot),通过 95 个特征值你会发现一个拐点的特征值。

特征点点陡坡图显示在第 13 和第 14 特征点时出现拐点,因此,这里选择的 13 个主成分来解释它们之间的关系,见下图。

(点击看大图)

工具分类

下面列出根据主成分析得出的 13 类工具(投票数大于 20):

  1. 大数据生态(Hadoop、Spark)和开源项目:Hadoop, HBase, Hive, Mahout, MLlib, Other Hadoop/HDFS-based tools, Pig, Scala, Spark, SQL on Hadoop tools
  2. 微软数据科学家工具:Microsoft Azure ML, Microsoft Power BI, Microsoft SQL Server, Revolution Analytics
  3. 基于 Python 的机器学习:Dataiku, H2O (0xdata), Python, scikit-learn, Theano, Vowpal Wabbit
  4. SAS 公司产品:JMP, SAS Base, SAS Enterprise Miner
  5. MATLAB、R 语言等统计工具:Gnu Octave, MATLAB, Orange, R, RapidMiner, Rattle, Weka
  6. IBM 公司产品:IBM Cognos, IBM SPSS Modeler, IBM SPSS Statistics, IBM Watson Analytics
  7. Linux 工具和 SQLang:Actian, C/C++, Perl, SQLang, Unix shell/awk/gawk
  8. 深度学习:Caffe, Pylearn2
  9. 商务智能软件:Pentaho and QlikView
  10. 数据分析平台:Datameer and Zementis
  11. Excel 和 Word 统计工具:XLSTAT for Excel
  12. 其它:Other Deep Learning tools, Other free analytics/data mining tools, Other Hadoop/HDF-based tools, Other paid analytics/data mining/data science software, Other programming languages
  13. 数据可视化:C4.5/C5.0/See5, Miner3D, Oracle Data Miner

总结

数据科学家在选择大数据、数据挖掘和数据分析工具时,更倾向于有一定生态基础的工具,这样各个工具间可以相互支持。

为了提高在大数据项目中成功的机会,选择正确的工具是非常重要的。没有一个孤立的工具能够做所有的数据分析,职业的数据专家趋向于使用不止一种相关的工具(分析中发现,数据专家平均使用 5 种数据分析工具)。你可以根据使用相关工具的数据专家来决定自己的选择。

另外一个观点是,要选择大厂的产品,比如,IBM、微软和 SAS,大品牌的产品更丰富,可以使得你的产品更容易扩展。


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-03-31 19:002551
用户头像

发布了 43 篇内容, 共 29.0 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

治水?智水!天翼云用科技解码智慧水务新发展!

天翼云开发者社区

云计算 大数据

PoseiSwap:通过 RWA 的全新叙事,反哺 Nautilus Chain 生态

西柚子

聆心智能“超拟人”模型升级,助力AI实现“走心”突破

硬科技星球

码力全开!请查收HDC.Together 2023亮点日程

HarmonyOS开发者

HarmonyOS

新华水力:实现税务集中管理的新路径

用友BIP

税务管理

企业游学进华秋,助力电子产业创新与发展

华秋电子

RT-DETR:可以满足实时性要求的DETR模型

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 7 月 PK 榜

晋级榜单揭晓!华秋第九届硬创大赛-华南分赛区路演成功举办

华秋电子

生态伙伴 | 华秋硬创联合长虹创投,共同打造更优生态系统

华秋电子

聆心智能Open Day发布CharacterGLM,共创超拟人大模型全“心”未来

硬科技星球

明道云与美洽产品生态合作介绍

明道云

Flink SQL 优化实战 - 维表 JOIN 优化

腾讯云大数据

流计算 Oceanus

IIOT -IPQ9574+IPQ8074-High Performance Router Motherboard-Support Wi-Fi 6 and Powerful Quad-Core Processor

wifi6-yiyi

wifi6 WiFi7

一文带你入门网络协议

高端章鱼哥

数据 网络协议 网络 协议

一文读懂原生应用与混合应用

没有用户名丶

建设数字工厂:MRP物料需求计划的逻辑原理与配置方法

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

需求太多处理不过来?MoSCoW模型帮你

敏捷开发

项目管理 需求处理 MoSCoW模型 排序优先级

LED显示屏在高温的状态下工作影响有多大

Dylan

企业 常识 LED显示屏 户外LED显示屏 led显示屏厂家

PoseiSwap:通过 RWA 的全新叙事,反哺 Nautilus Chain 生态

BlockChain先知

用友《大型企业税务数智化转型方法论》:推动企业数智化转型

用友BIP

税务管理

三分钟白话RocketMQ系列—— 核心概念

互联网工科生

分布式 RocketMQ 消息中间件

工程项目管理软件有哪些?

优秀

项目管理软件 工程管理

如何在远距离传输大型文件时避免网络延迟和数据丢失

镭速

远距离传输大型文件 传输效率

如何实现 MySQL 的读写分离?MySQL 主从复制原理的是啥?如何解决 MySQL 主从同步的延时问题?

java易二三

程序员 面试 计算机

数据库行业需要什么样的人才?高校老师这样说

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

ShareSDK 国内平台登陆返回参数

MobTech袤博科技

前端 APP开发 分享工具

IPD(集成产品开发)与传统项目管理的区别

禅道项目管理

项目管理 IPD

使用 IDEA 远程 Debug 调试,太实用了!

java易二三

学习 编程 程序员 IDEA 计算机

捷报:斩获32项认证,6大奖项!

天翼云开发者社区

云计算

MySQL事务隔离机制与实现原理详解(MySQL专栏启动)

java易二三

MySQL 数据库 程序员 计算机

你的大数据项目使用的工具正确吗?_语言 & 开发_侠天_InfoQ精选文章