HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

数据分析到底该怎么学?

  • 2019-05-29
  • 本文字数:2672 字

    阅读完需:约 9 分钟

数据分析到底该怎么学?

互联网发展至今,已离不开数据,使得很多公司格外青睐具备数据分析能力的人。迎着这一浪潮,很多人都跃跃欲试,想要掌握数据分析的技能,让自己在职场上更有主动权。


但万事开头难,摆在很多人面前的困扰是,我到底该怎么学数据分析?


  • 我需要掌握 Excel 吗?

  • 数据分析对统计学和数学要求高吗?

  • 没有编程能力还能学数据分析吗?

  • Python 语言和 R 语言我该选择哪一个?


相信这是不少人的疑惑,之所以会出现这些问题,是因为很多人混淆了数据分析的概念。


广义上的数据分析包括了统计学、增长黑客、相关性分析等,更偏向产品运营,而我们这里所说的数据分析,则是隶属于编程世界里的数据分析,是算法和技术的天下。


作为一个程序员,相信你更需要的是后者。学习数据分析,你最需要掌握的就是 Python 语言、数据预处理以及算法知识。


Python 语言贯穿于数据分析的整个过程,只有掌握 Python,你才能熟练地通过它做数据预处理,以及使用各种算法包。


掌握 Python 之后,你才会使用 Python 的各种机器学习库、第三方工具等,有了它们,数据预处理才会事半功倍。


算法是数据分析的精髓,只有掌握算法,你才能处理各种数据。


那么具体到这三点,该怎么学数据分析呢?

入门:掌握 Python

如果你刚接触数据分析,面对纷繁复杂的算法和工具不知所措,那么,首先你最需要掌握的就是 Python 语言。听起来是不是很不可思议?事实上,Python 是数据分析领域中当之无愧的王者语言,它封装了很多算法工具包,使用起来非常方便。


在专栏里,我用一篇文章快速帮你理解 Python 语言的基础语法,比如输入输出、循环语句、数据类型等。


除了 Python 语言之外,你还需要了解 NumPy 和 Pandas 这两个第三方库。NumPy 提供的数据结构是 Python 数据分析的基础,它可以让 Python 的科学计算更加高效。Pandas 则是一个含有更高级数据结构和分析能力的工具包,它的核心数据结构是 Series 和 DataFrame。基于这两种结构,我们可以很方便地处理数据。





新手:使用 Python 工具包进行数据预处理

当你入门 Python 后,接下来就算正式进入数据预处理阶段。“数据分析”涵盖两部分:数据是基础,分析是过程,所以数据的前期准备工作也很重要。


这些工作主要包括:


  • 数据采集

  • 数据清洗

  • 数据集成

  • 数据变换

  • 数据可视化


不要小看这些工作,看似和“分析”不挂钩,其实,这些工作相当于分析前的“备菜过程”,没有“备菜”,何谈“掌勺”?


第一步,采集数据。


你可以用 Python 自动采集数据,也可以使用第三方平台,比如用八爪鱼来采集数据。我用两篇文章分别讲了这两种方法,其中都讲到了 XPath 这个路径语言,它可以通过元素和属性快速帮我们定位位置。


具体的实操方法,可以看下面两篇文章:




很多时候,我们采集到的数据是杂乱的,可能会遇到各种问题,比如有缺失值、数据单位不统一、有重复值等。这个时候你可以采用“完全合一”的原则清洗数据。



当然,大家最感兴趣的可能还是数据可视化。运用各种酷炫的图片将数据的规律直观地呈现在众人面前,想想是一件特别有成就感的事情,比如天猫双十一的数据大屏等。我们可以用各种工具、编程语言做数据可视化,比如 DataV、Tableau、Python 或者 R 语言。


在专栏中,我主要是用 Python 的 Matplotlib 工具来做数据可视化。Matplotlib 是 Python 的可视化基础库,非常适合入门学习。下面的这几张图就是用 Matplotlib 绘制出来的。



可视化的具体操作方法:


进阶:掌握算法,学会实战

当你掌握了数据分析中基础的操作后,接下来就该正式处理数据了。为了进行数据挖掘任务,数据科学家们提出了各种算法,我在专栏中主要讲解了数据挖掘十大经典算法,根据用途,把它们分为四大类:


  • 分类算法:C4.5、朴素贝叶斯、SVM、KNN、Adaboost 和 CART

  • 聚类算法:K-Means、EM

  • 关联分析:Apriori

  • 连接分析:PageRank


你看到这些算法可能会发愁,看不懂怎么办呢?这个你完全不用担心,我在专栏里用了大篇幅内容来讲解这十大经典算法,每一个算法都有很多的案例去辅助你理解,还提供了一些数据库让你去实操,即学即用。


而实际上,你不需要了解这些算法具体的推导过程,只需要了解它们的原理即可。比如在数据挖掘算法中,大名鼎鼎的朴素贝叶斯算法和贝叶斯原理之间是什么关系?通过下面这张图,你可以直观地找到这个问题的答案。



更多详细补充:



为什么我会说不需要了解算法具体的推导过程呢?因为在实际工作中,有很多工具已经帮我们封装好这些算法了,比如 sklearn,你在使用的时候,只要写一行代码,就可以直接引用,只需要调整参数就可以。


当然,虽说 sklearn 封装了数据挖掘所用到的绝大多数算法,但也有一些算法并不能覆盖到,比如图论和网络建模。那么,这个时候我们该怎么办呢?


你可以使用 NetworkX,一个用 Python 语言开发的工具,它内置了常用的图论与网络分析算法,可以方便我们进行网络数据分析。比如我们可以直接调用里面的 PageRank 算法,而不用在意具体的计算细节。在专栏中,我用 NetworkX 这一工具分析了希拉里邮件往来人员的关系和彼此之间的权重,帮我们非常直观地呈现出了以下结论图。




当你掌握了多种算法之后,实际工作中还会遇到这类问题:如何选择各种分类器,到底选择哪个分类算法,是 SVM,决策树,还是 KNN?如何优化分类器的参数,以便得到更好的分类准确率?


这两个问题,是数据挖掘核心的问题。当然对于一个新的项目,我们还有其他的问题需要了解,比如掌握数据探索和数据可视化的方式,还需要对数据的完整性和质量做评估。这些内容我在之前的课程中都有讲到过。


这里给到大家一个建议:使用 GridSearchCV 工具对模型参数进行调优。GridSearchCV 是 Python 的参数自动搜索模块,我们只要告诉它参数的范围,它就可以把所有情况都跑一遍,提供最优解。


我在专栏里用“信用卡违约率分析”的案例详细讲解了 GridSearchCV 的使用:



总之,你想要深入数据分析,算法与工具是你必须要攻克的两座大山。当然,我也希望你能认识到,工具只是帮我们实现目的,我们不可以被工具所奴役。数据分析与挖掘最重要的还是思考能力,收集什么数据,用什么工具分析,分析出什么样的结果,用什么方式呈现出来,都需要大家的思考与观察。这也是我在专栏里十分强调的点。


毕竟工具是别人的,但思维和实战经验,才是你自己的。


内容选自极客时间数据分析实战45讲专栏


2019-05-29 17:4415595

评论

发布
暂无评论
发现更多内容

python调用函数详解

百度搜索:蓝易云

AI会计师:让AI+成就价值财务

用友智能财务

AI AI技术实践

使用 NGINX 和 NGINX Plus 实现负载均衡(第 1 部分)

NGINX开源社区

nginx 负载均衡 读书笔记

前端调试实践

京东零售技术

前端

QQ小程序已发布,但无法被搜索的解决方案

北桥苏

小程序

AI产品独立开发变现实战营-自由职业副业首选

陆通

一键去除ppt底版logo!推荐2个做ppt必备的实用技巧!

职场工具箱

职场 PPT 在线白板 办公软件 AI生成PPT

苹果电脑玩魔兽世界需要什么配置?MacBook玩魔兽世界卡顿丢包怎么办

阿拉灯神丁

游戏 CleanMyMac X 苹果电脑 国外服务器 魔兽世界单机

替换OpenTSDB和HBase,宝武集团使用IoTDB助力钢铁设备智能运维

Apache IoTDB

项目财务管理软件有哪些选择?8款详细对比

爱吃小舅的鱼

项目财务管理软件

.NET 8.0 引领新一代通用管理平台:模块化、WinForms与WPF全面融合

代码忍者

API接口对淘宝的深远影响有什么?

科普小能手

API API 接口 API 测试

13.观察者模式设计思想

杨充

重视游戏本身的价值,小游戏3.0时代应如此。

Geek_2305a8

如何方便的编辑数学公式?好用的公式编辑器软件推荐 mathtype免费下载

阿拉灯神丁

公式算法 函数式 数学工具 MathType LaTeX 编辑器

【教程】第五章:标签页 & 区块 —— 丰富视图,精彩纷呈

NocoBase

开源 低代码 教程 无代码

php+mysql实现补齐24小时时间段同时赋值0的后端解决方案

百度搜索:蓝易云

保证Redis和数据库数据一致性的方法

百度搜索:蓝易云

高校数字校园建设的数字身份管理难题

芯盾时代

数字身份 iam 身份和访问管理 数字化校园

富士胶片集团发布2024财年上半年度财务报告

财见

百度APP月活超过7.04亿,AI成全方位增长的新驱动力

科技热闻

即梦AI推出“一句话改图”功能,助力用户发掘更多创意

Geek_2d6073

LLMs 如何处理相互矛盾的指令?指令遵循优先级实验

Baihai IDP

程序员 AI LLM Prompt GenAI

iPad备份软件哪个好?好用的苹果备份软件推荐

阿拉灯神丁

ipad imazing iTunes 备份 & 恢复 数据备份工具

新人如何做好项目管理?|京东零售技术人成长

京东零售技术

项目管理 技术成长 项目经理

大模型,智能家居的春秋战国之交

脑极体

AI

PHP,GET,POST请求file_get_contents拼接header

百度搜索:蓝易云

几何画板Sketchpad中文激活码及安装教程 Sketchpad for Mac几何教学工具

理理

瑞典国家旅游局开创先例申请注册目的地商标

财见

如何解决503 Service Temporarily Unavailable?

百度搜索:蓝易云

数造科技:赋能数字政府与智慧城市,推动数据资产入表

数造万象

政务 DataOps 大模型 #科技 数据资产入表

数据分析到底该怎么学?_大数据_陈旸_InfoQ精选文章