QCon 全球软件开发大会(北京站)门票 9 折倒计时 4 天,点击立减 ¥880 了解详情
写点什么

7 道常见的数据分析面试题

2019 年 2 月 26 日

7道常见的数据分析面试题

数据分析师近几年在国内互联网圈越来越火,很多开发都因为薪资和发展前景,希望转行到数据分析岗。今天,我们就来聊聊面试数据分析师的那些事。


其实,数据分析能力是每个互联网人的必备技能,哪怕你没有转行数据分析师的计划,也推荐你看看这个文章,提升你的数据能力。


数据分析的能力要求

与数据分析相关的工作有一个特质,就是对数字非常敏感,同时也要求对数据具有良好的思考能力,比如说如何用数据指导业务,如何将数据呈现在报告中。


在面试的时候,面试官通常会考察以下三个维度的能力:


1.理论知识(概率统计、概率分析等)


掌握与数据分析相关的算法是算法工程师必备的能力,如果你面试的是和算法相关的工作,那么面试官一定会问你和算法相关的问题。比如常用的数据挖掘算法都有哪些,EM 算法和 K-Means 算法的区别和相同之处有哪些等。


有些分析师的工作还需要有一定的数学基础,比如概率论与数理统计,最优化原理等。这些知识在算法优化中会用到。


除此以外,一些数据工程师的工作更偏向于前期的数据预处理,比如 ETL 工程师。这个职位考察你对数据清洗、数据集成的能力。虽然它们不是数据分析的“炼金”环节,却在数据分析过程中占了 80%的时间。


数据集成的两种架构方式


2.具体工具(sklearn、Python、Numpy、Pandas 等)


工程师一定需要掌握工具,你通常可以从 JD 中了解一家公司采用的工具有哪些。如果你做的是和算法相关的工作,最好还是掌握一门语言,Python 语言最适合不过,还需要对 Python 的工具,比如 Numpy、Pandas、sklearn 有一定的了解。


数据 ETL 工程师还需要掌握 ETL 工具,比如 Kettle。


如果是数据可视化工作,需要掌握数据可视化工具,比如 Python 可视化,Tableau 等。


如果工作和数据采集相关,你也需要掌握数据采集工具,比如 Python 爬虫、八爪鱼。


如何用八抓鱼做数据采集?


3.业务能力(数据思维)


数据分析的本质是要对业务有帮助。因此数据分析有一个很重要的知识点就是用户画像。


用户画像是企业业务中用到比较多的场景,对于数据分析来说,就是对数据进行标签化,实际上这是一种抽象能力。


用户画像建模


题目

作为实力检测的一部分,笔试是非常重要的一个环节。它可以直接测验你对数据分析具体理论的掌握程度和动手操作的能力。我出了几道简单的题,你不妨来看下。


问答题

1.用一种编程语言,实现 1+2+3+4+5+…+100。


这道题考察的就是语言基础,你可以用自己熟悉的语言完成这道题,比如 Python、Java、PHP、C++等。这里我用 Python 举例:


sum = 0for number in range(1,101):       sum = sum + numberprint(sum)
复制代码


2.如何理解过拟合?


过拟合和欠拟合一样,都是数据挖掘的基本概念。过拟合指的就是数据训练得太好,在实际的测试环境中可能会产生错误,所以适当的剪枝对数据挖掘算法来说也是很重要的。


欠拟合则是指机器学习得不充分,数据样本太少,不足以让机器形成自我认知。


3.为什么说朴素贝叶斯是“朴素”的?


朴素贝叶斯是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。


4.SVM 最重要的思想是什么?


SVM 计算的过程就是帮我们找到超平面的过程,它有个核心的概念叫:分类间隔。SVM 的目标就是找出所有分类间隔中最大的那个值对应的超平面。在数学上,这是一个凸优化问题。同样我们根据数据是否线性可分,把 SVM 分成硬间隔 SVM、软间隔 SVM 和非线性 SVM。


5.K-Means 和 KNN 算法的区别是什么?


首先,这两个算法解决的是数据挖掘中的两类问题。K-Means 是聚类算法,KNN 是分类算法。其次,这两个算法分别是两种不同的学习方式。K-Means 是非监督学习,也就是不需要事先给出分类标签,而 KNN 是有监督学习,需要我们给出训练数据的分类标识。最后,K 值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K 个最接近的邻居。


动手题

1.我给你一组数据,如果要你做数据清洗,你会怎么做?



实际上,这一道题中,面试官考核的是基本的数据清洗的准则,数据清洗是数据分析必不可少的重要环节。你可能看到这个数据存在 2 个问题:典韦出现了 2 次,张飞的数学成绩缺失。


针对重复行,你需要删掉其中的一行。针对数据缺失,你可以将张飞的数学成绩补足。


点击查看数据清洗具体方法


2.豆瓣电影数据集关联规则挖掘


在数据分析领域,有一个很经典的案例,那就是“啤酒+尿布”的故事。它实际上体现的就是数据分析中的关联规则挖掘。不少公司会对这一算法进行不同花样的考察,但万变不离其宗。


如果让你用 Apriori 算法,分析电影数据集中的导演和演员信息,从而发现两者之间的频繁项集及关联规则,你会怎么做?


点击查看完整代码


以上就是有关数据分析面试笔试的一些内容,你或许可以感受到数据分析师这个岗位的特殊性。面试找工作虽说不是一朝一夕就可以完成的事情,但我希望通过专栏,能助你一臂之力。


《数据分析实战 45 讲》专栏,不到 2 个月,已经有 1W 程序员加入学习,现正在优惠中,戳此抢购>>>


2019 年 2 月 26 日 14:3511786

评论

发布
暂无评论
发现更多内容

Spring Security 主要类解释

哈库拉玛塔塔

springsecurity

不草率,你只管下载资料,剩下的交给「哇哦」

小Q

Java 学习 架构 面试 分布式

我们该怎么保护手机屏幕前的父母?

徐说科技

手机 短视频

SpringCloud轻松集成Dubbo实现RPC调用

Barry的异想世界

微服务 dubbo nacos RPC spring cloud alibaba

区块链激励层——区块链生态建设的驱动力量

CECBC区块链专委会

区块链技术 驱动力量

架构师课作业 - 第十三周

Tulane

oeasy教您玩转 linux 010212 管道 pipe

o

区块链应用层——生态体系的上层建筑

CECBC区块链专委会

区块链技术 生态体系

Golang领域模型-实体

奔奔奔跑

go 架构 领域驱动设计 DDD 微服务拆分

HashMap将cpu打满始末

林昱榕

hashmap 线程安全 cpu 100% cpu飙满

【高并发】面试官:讲讲什么是缓存穿透?击穿?雪崩?如何解决?

冰河

缓存 面试 穿透 击穿 雪崩

区块链技术发展的十大趋势

CECBC区块链专委会

区块链 金融 安全问题

Go: 理解 Sync.Pool 的设计

陈思敏捷

go golang sync sync.pool pool

为什么每个微服务要有自己独立的数据库?

码猿外

数据库 架构 微服务

重新学习了一遍ThreadLocal

熊斌

学习

华为与第四范式,正在酝酿一个帮企业跳出AI悖论的“秘密计划”

脑极体

从一段 Dubbo 源码到 CPU 分支预测的一次探险之旅

yes的练级攻略

dubbo cpu

央行数研所推出贸易金融区块链平台

CECBC区块链专委会

区块链 金融

一点 Go Web 编程实践经验

Garfield

go Go web

TOGAF认证课由2天变化为5天的思考

周金根

企业架构 TOGAF

Java四种引用类型:强引用、软引用、弱引用、虚引用

简爱W

认证、授权、鉴权和权限控制

哈库拉玛塔塔

spring security 用户权限 鉴权 权限

从新浪数字化转型,窥见互联网的“懂行”新十年

脑极体

业务架构学习内容有哪些?

周金根

BIZBOK 业务架构

week11--作业

Geek_165f3d

金沙账号审核不通过维护不给提现风控怎么回事?怎么办

过山太阳

内容审核 提现不了

记录问题 INSERT INTO table ... SELECT ... FROM dual WHERE not exists (...)问题

浅^安

sql SQL语法 sql查询

我理解的面向对象(ObjectiveSql 实践)

Braisdom

Java ORM框架 ORM

LeetCode 169. Majority Element

liu_liu

算法 LeetCo

企业中台化落地:从战略分析到战术实践及架构演进过程

Barry的异想世界

架构设计 策略模式 模板方法模式 中台架构 领域驱动设计DDD

以大数据为依托提升基层治理效能

CECBC区块链专委会

大数据 信息化管理

边缘计算隔离技术的挑战与实践

边缘计算隔离技术的挑战与实践

7道常见的数据分析面试题-InfoQ