写点什么

你的大数据项目使用的工具正确吗?

  • 2016-03-31
  • 本文字数:1185 字

    阅读完需:约 4 分钟

工具/产品/解决方案是数据科学家洞察数据的利器。 KDNuggets 网站对此观点进行了年度调查,来分析数据科学家在用哪些类型的工具,并提供了调查的匿名原始数据

通过主成分析(PCA)法进行降维分析

对所有的工具同时进行关系分析,常规来说,PCA 通过对大样本数据统计性质(eg, 协方差)的分析,试图用主要特征来解释关系。

分析结果:

当前分析的目标:通过一些主成分来分析 95 种工具之间的关系。最终决定以 PCA 的特征值来决定主成分的数目,这里选用了两种规则:一种是以特征值大于 1 的特征值数量来选择主成分数量;一种是画陡坡图(scree plot),通过 95 个特征值你会发现一个拐点的特征值。

特征点点陡坡图显示在第 13 和第 14 特征点时出现拐点,因此,这里选择的 13 个主成分来解释它们之间的关系,见下图。

(点击看大图)

工具分类

下面列出根据主成分析得出的 13 类工具(投票数大于 20):

  1. 大数据生态(Hadoop、Spark)和开源项目:Hadoop, HBase, Hive, Mahout, MLlib, Other Hadoop/HDFS-based tools, Pig, Scala, Spark, SQL on Hadoop tools
  2. 微软数据科学家工具:Microsoft Azure ML, Microsoft Power BI, Microsoft SQL Server, Revolution Analytics
  3. 基于 Python 的机器学习:Dataiku, H2O (0xdata), Python, scikit-learn, Theano, Vowpal Wabbit
  4. SAS 公司产品:JMP, SAS Base, SAS Enterprise Miner
  5. MATLAB、R 语言等统计工具:Gnu Octave, MATLAB, Orange, R, RapidMiner, Rattle, Weka
  6. IBM 公司产品:IBM Cognos, IBM SPSS Modeler, IBM SPSS Statistics, IBM Watson Analytics
  7. Linux 工具和 SQLang:Actian, C/C++, Perl, SQLang, Unix shell/awk/gawk
  8. 深度学习:Caffe, Pylearn2
  9. 商务智能软件:Pentaho and QlikView
  10. 数据分析平台:Datameer and Zementis
  11. Excel 和 Word 统计工具:XLSTAT for Excel
  12. 其它:Other Deep Learning tools, Other free analytics/data mining tools, Other Hadoop/HDF-based tools, Other paid analytics/data mining/data science software, Other programming languages
  13. 数据可视化:C4.5/C5.0/See5, Miner3D, Oracle Data Miner

总结

数据科学家在选择大数据、数据挖掘和数据分析工具时,更倾向于有一定生态基础的工具,这样各个工具间可以相互支持。

为了提高在大数据项目中成功的机会,选择正确的工具是非常重要的。没有一个孤立的工具能够做所有的数据分析,职业的数据专家趋向于使用不止一种相关的工具(分析中发现,数据专家平均使用 5 种数据分析工具)。你可以根据使用相关工具的数据专家来决定自己的选择。

另外一个观点是,要选择大厂的产品,比如,IBM、微软和 SAS,大品牌的产品更丰富,可以使得你的产品更容易扩展。


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-03-31 19:002579
用户头像

发布了 43 篇内容, 共 29.2 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

云原生小课堂|Envoy请求流程源码解析(三):请求解析

York

云原生 网络 envoy Service Mesh (ASM)

虎符交易所APP产品UI全新升级 让用户体验更流畅

区块链前沿News

虎符交易所

报名开启 | 3月30日,阿里云-索信达智能金融平台线上发布会

索信达控股

详细解读开源 PolarDB 三节点高可用的功能特性和关键技术

阿里云数据库开源

数据库 阿里云 开源 polarDB

CVE-2021-45232分析(APISIX网关未授权访问)

火线安全

云安全 云安全攻防

项目成本管理系统解决方案

低代码小观

资产管理 成本优化 企业管理系统 CRM系统 项目管理软件

什么是持续集成?如何基于Jenkins进行持续集成?

阿里云云效

云计算 阿里云 云原生 持续集成 CI/CD

【百度智能云X英伟达】直播实录|超大规模AI异构计算集群的设计和优化

百度开发者中心

【图解数据结构】排序全面总结(下)

知心宝贝

数据结构 算法 排序算法 3月月更

【Zeekr_Tech】软件定义汽车之SOME/IP介绍

Zeekr_Tech

中间件 软件架构

Ansible:实战笔记

NChunHisenG.🐰

ansible

贝壳Flutter UI 自动化测试原理与实践 - 已开源

贝壳大前端技术团队

flutter 测试 UI自动化 贝壳找房

让人秒懂的Redis的事件处理机制

Linux服务器开发

redis reactor epoll Linux服务器开发 Linux后台开发

ABAP 获取本地路径

Jasen Ye

abap 文件路径

ABAP 常用日期处理

Jasen Ye

Date 日期处理 abap

开源实践 | OceanBase 在红象云腾大数据场景下的实践与思考

OceanBase 数据库

oceanbase OceanBase 开源 OceanBase 社区版

怎样做一个知识库网站

小炮

知识库 SaaS平台

信创背景下,J2PaaS低代码平台如何支持企业国产化?

J2PaaS低代码平台

信创 低代码平台 J2PaaS 企业国产化 J2PaaS低代码

EMAS 移动推送发布uni-app插件

移动研发平台EMAS

ios 阿里云 Android端 开发与运维 移动推送

网络安全Kali之基于SSH、FTP协议收集信息

学神来啦

国产版Postman

Liam

Java Jmeter Postman swagger Mock

拜托,不用记密码真的超酷好吗?

蚂蚁集团移动开发平台 mPaaS

小程序 移动开发 mPaaS

延期通知 RocketMQ Summit 议题全揭秘

阿里巴巴云原生

拆分电商系统为微服务

孙强

架构师实战营

【百度智能云X英伟达】直播实录|GPU云产品体系介绍和应用场景分享

百度开发者中心

4/8 Serverless 技术实践营成都站持续报名中

阿里巴巴云原生

Windows、Linux、Apple三大操作系统的主流文件系统包含哪些?

Ethereal

《OceanBase 数据库系统概念》首次发布,系统精准定义 OceanBase !

OceanBase 数据库

oceanbase OceanBase 开源 OceanBase 社区版

怎么进行缺陷管理,看完这篇文章,我终于明白了···

阿里云云效

云计算 阿里云 缺陷检测 研发 缺陷管理

手把手带你走进Babel的编译世界

CRMEB

【Python】此集合非彼集合

謓泽

3月月更

你的大数据项目使用的工具正确吗?_语言 & 开发_侠天_InfoQ精选文章