本文是该系列的第二部分,我从变量中发现了有趣的见解,并发布了相关视频。 本系列第一部分的主要工作是数据收集和数据清理。本文,我们做一些探索性数据分析,这是该项目的一部分, 全部代码 都可以在这里找到。
完成数据清理
我意识到,在之前的文章中,我忘记清理这三个列(变量):“ gender_pref
”、“ reason
”和“ job
”。所以,我很快对它们进行了清理。
对于“
gender_pref
”,我将它们重新标记为“male
”、“female
”、“both
”和“it's about music
”,以简化它们。对于“
reason
”,我把它们分为“unique music style
”、“unique choreography
”、“attractive idols
”、“many reasons
”和“other reason
”。对于“
job
”,我按照“student
”、“full-time woker
”和“unemplppyed
”来分类。
分析连续变量
首先,检查连续变量的描述,包括:“ yr_listened
”、“ daily_music_hr
”、“ daily_MV_hr
”、“ yr_merch_spent
”、“ age
”、“ num_gr_like
”。
检查连续变量的描述
连续变量的描述
我们可以看到,歌迷平均年龄为 18 岁,他们已经听了大约三年的流行音乐,每天听流行音乐的时间为 4.3 小时,看视频的时间为 1.95 小时。他们在相应商品上的平均花费为 85 美元。
检查连续变量的直方图
你可以看到,由于存在一些异常值,“
yr_listed
”变量的分布稍微呈右偏分布。
ys_listened
直方图
“`daily_music_hr”呈正态分布
“ daily_music_hr
”的直方图
“daily_MV_hr” 稍微呈右偏分布
“ daily_MV_hr
” 的直方图
“
yr_merch_spent
”接近正态分布
“ yr_merch_spent
” 的直方图
“
age
”呈正态分布
“ age
” 的直方图
“
num_gr_like
” 呈右偏分布
“`num_gr_like” 的直方图
检查箱形图以检测异常值
绘制箱形图可以帮助你检测异常值。
我们发现,在“ ye_listened
”和“ yr_merch_spent
”中存在一些异常值。
“ daily_music_hr
”、“ daily_MV_hr
”、“ yr_listened
”和“ yr_merch_spent
”的箱形图
“
num_gr_like
” 存在很多异常值
“ num_gr_like
” 的箱形图
移除异常值并再次检查分布
让我们从“ yr_listened
”和“ num_gr_like
”中移除异常值,然后检查直方图,以查看分布是否有任何变化。
“ yr_listened
”和“ num_gr_like
”的直方图
我们可以清楚地看到,“ yr_listened
”现在呈正态分布,但“ num_gr_like
”却没未呈正态分布。由于只喜欢 1 到 2 组的人过多,所以去掉异常值并不会对分布产生太大的影响。
检查连续变量之间的相关性
检查相关性很重要,因为我们想了解哪些变量是相关的。在建模过程中,当自变量高度线性相关时,我们不希望出现多重共线性,这在拟合回归模型时可能会导致问题。
有什么方法可以解决多重共线性问题呢?
检查相关矩阵和相关热图
基于相关矩阵,我们发现连续变量之间并不存在多重共线性,且没有接近于 0 的相关性。
我们可以看到存在这些关系:
他们听流行音乐的年限与小时数、花在商品上的钱和年龄呈正相关。
他们在 YouTube 上观看韩国流行音乐视频的小时数与收听韩国流行音乐的小时数呈正相关。
他们花在韩国流行音乐上的时间越多,花在购买韩国流行音乐商品上的钱就越多。
他们看的韩国流行音乐视频越多,听的韩国流行音乐越多,他们喜欢的团队就越多。
他们越年轻,在韩国流行音乐和视频花费的时间就越多。
年龄与他们每年花多少钱购买韩国流行音乐商品无关。
分析分类变量
现在,让我们来分析分类变量。
为分类变量生成数据帧
条形统计图
让我们绘制条形统计图来表示分类变量。以下是一些发现。
BTS 显然是最有名的团体。
最喜欢的团体条形统计图
韩国流行音乐在很多国家越来越受欢迎。
韩国流行音乐流行度条形统计图
很多歌迷喜欢韩国流行音乐,原因是多方面的,紧随其后的是“
unique music style
”(独特的音乐风格)。没有多少人仅仅因为偶像的出现就听韩国流行音乐。喜欢男女组合的歌迷最多,其次是偏爱男性和“
it's about music
”(音乐)。只喜欢女性团体的人并不多。
性别偏好的条形统计图
240 人中,大约有 90 人因为喜欢韩国流行音乐而被取笑。大约有 70 人表示,他们的睡眠时间减少了。
生活改变的条形统计图
逾 120 人表示,他们通过听韩国流行音乐来减轻压力/焦虑/抑郁。这对我来说非常有趣,因为我认为,如果有很多人被取笑的话,那么将不会有太多的积极影响。大约有 80 人通过韩国流行音乐结交了朋友。
积极影响的条形统计图
美国有很多韩国流行音乐歌迷,紧随其后的是英国、其他欧洲国家和加拿大。
按国别的条形统计图
使用数据透视表查找关系
我们还可以使用数据透视表来发现变量之间的一些关系。
听韩国流行音乐和在 YouTube 上观看韩国流行音乐的视频,可以帮助歌迷们减轻压力,结交更多的朋友。
韩国流行音乐与积极效果的关系
大部分钱都是花在购买音乐会的门票上。
参加演唱会和在商品上花钱的关系
年纪较大的歌迷(大约 24 岁)因为喜欢韩国流行音乐而被取笑,而年轻的歌迷通过韩国流行音乐结交朋友。
年龄与积极影响及生活改变之间的关系
当然,你可以更深入地了解数据科学周期中探索性数据分析的部分。一旦你很好地理解了在模型构建过程中想要做什么,那么就可以到此为止了。
作者介绍:
Jaemin Lee,专攻数据分析与数据科学,数据科学应届毕业生。
原文链接:
评论