11 月 19 - 20 日 Apache Pulsar 社区年度盛会来啦,立即报名! 了解详情
写点什么

用机器学习分析流行音乐(二):探索性数据分析

  • 2020-08-11
  • 本文字数:2171 字

    阅读完需:约 7 分钟

用机器学习分析流行音乐(二):探索性数据分析

本文是该系列的第二部分,我从变量中发现了有趣的见解,并发布了相关视频。 本系列第一部分的主要工作是数据收集和数据清理。本文,我们做一些探索性数据分析,这是该项目的一部分, 全部代码 都可以在这里找到。


完成数据清理

我意识到,在之前的文章中,我忘记清理这三个列(变量):“ gender_pref ”、“ reason ”和“ job ”。所以,我很快对它们进行了清理。


  • 对于“ gender_pref ”,我将它们重新标记为“ male ”、“ female ”、“ both ”和“ it's about music ”,以简化它们。

  • 对于“ reason ”,我把它们分为“ unique music style ”、“ unique choreography ”、“ attractive idols ”、“ many reasons ”和“ other reason ”。

  • 对于“ job ”,我按照“ student ”、“ full-time woker ”和“ unemplppyed ”来分类。


分析连续变量

首先,检查连续变量的描述,包括:“ yr_listened ”、“ daily_music_hr ”、“ daily_MV_hr ”、“ yr_merch_spent ”、“ age ”、“ num_gr_like ”。


检查连续变量的描述


连续变量的描述


我们可以看到,歌迷平均年龄为 18 岁,他们已经听了大约三年的流行音乐,每天听流行音乐的时间为 4.3 小时,看视频的时间为 1.95 小时。他们在相应商品上的平均花费为 85 美元。


检查连续变量的直方图

  • 你可以看到,由于存在一些异常值,“ yr_listed ”变量的分布稍微呈右偏分布。



ys_listened 直方图


  • “`daily_music_hr”呈正态分布



daily_music_hr ”的直方图


  • “daily_MV_hr” 稍微呈右偏分布



daily_MV_hr ” 的直方图


  • yr_merch_spent ”接近正态分布



yr_merch_spent ” 的直方图


  • age ”呈正态分布



age ” 的直方图


  • num_gr_like ” 呈右偏分布



“`num_gr_like” 的直方图


检查箱形图以检测异常值

绘制箱形图可以帮助你检测异常值。


我们发现,在“ ye_listened ”和“ yr_merch_spent ”中存在一些异常值。



daily_music_hr ”、“ daily_MV_hr ”、“ yr_listened ”和“ yr_merch_spent ”的箱形图


  • num_gr_like ” 存在很多异常值



num_gr_like ” 的箱形图


移除异常值并再次检查分布

让我们从“ yr_listened ”和“ num_gr_like ”中移除异常值,然后检查直方图,以查看分布是否有任何变化。



yr_listened ”和“ num_gr_like ”的直方图


我们可以清楚地看到,“ yr_listened ”现在呈正态分布,但“ num_gr_like ”却没未呈正态分布。由于只喜欢 1 到 2 组的人过多,所以去掉异常值并不会对分布产生太大的影响。


检查连续变量之间的相关性

检查相关性很重要,因为我们想了解哪些变量是相关的。在建模过程中,当自变量高度线性相关时,我们不希望出现多重共线性,这在拟合回归模型时可能会导致问题。


有什么方法可以解决多重共线性问题呢?



检查相关矩阵和相关热图


基于相关矩阵,我们发现连续变量之间并不存在多重共线性,且没有接近于 0 的相关性。


我们可以看到存在这些关系:


  • 他们听流行音乐的年限与小时数、花在商品上的钱和年龄呈正相关。

  • 他们在 YouTube 上观看韩国流行音乐视频的小时数与收听韩国流行音乐的小时数呈正相关。

  • 他们花在韩国流行音乐上的时间越多,花在购买韩国流行音乐商品上的钱就越多。

  • 他们看的韩国流行音乐视频越多,听的韩国流行音乐越多,他们喜欢的团队就越多。

  • 他们越年轻,在韩国流行音乐和视频花费的时间就越多。

  • 年龄与他们每年花多少钱购买韩国流行音乐商品无关。


分析分类变量

现在,让我们来分析分类变量。



为分类变量生成数据帧


条形统计图

让我们绘制条形统计图来表示分类变量。以下是一些发现。


  • BTS 显然是最有名的团体。



最喜欢的团体条形统计图


  • 韩国流行音乐在很多国家越来越受欢迎。



韩国流行音乐流行度条形统计图


  • 很多歌迷喜欢韩国流行音乐,原因是多方面的,紧随其后的是“ unique music style ”(独特的音乐风格)。没有多少人仅仅因为偶像的出现就听韩国流行音乐。

  • 喜欢男女组合的歌迷最多,其次是偏爱男性和“ it's about music ”(音乐)。只喜欢女性团体的人并不多。



性别偏好的条形统计图


  • 240 人中,大约有 90 人因为喜欢韩国流行音乐而被取笑。大约有 70 人表示,他们的睡眠时间减少了。



生活改变的条形统计图


  • 逾 120 人表示,他们通过听韩国流行音乐来减轻压力/焦虑/抑郁。这对我来说非常有趣,因为我认为,如果有很多人被取笑的话,那么将不会有太多的积极影响。大约有 80 人通过韩国流行音乐结交了朋友。



积极影响的条形统计图


  • 美国有很多韩国流行音乐歌迷,紧随其后的是英国、其他欧洲国家和加拿大。



按国别的条形统计图


使用数据透视表查找关系

我们还可以使用数据透视表来发现变量之间的一些关系。


听韩国流行音乐和在 YouTube 上观看韩国流行音乐的视频,可以帮助歌迷们减轻压力,结交更多的朋友。



韩国流行音乐与积极效果的关系


  • 大部分钱都是花在购买音乐会的门票上。



参加演唱会和在商品上花钱的关系


  • 年纪较大的歌迷(大约 24 岁)因为喜欢韩国流行音乐而被取笑,而年轻的歌迷通过韩国流行音乐结交朋友。



年龄与积极影响及生活改变之间的关系


当然,你可以更深入地了解数据科学周期中探索性数据分析的部分。一旦你很好地理解了在模型构建过程中想要做什么,那么就可以到此为止了。


作者介绍:


Jaemin Lee,专攻数据分析与数据科学,数据科学应届毕业生。


原文链接:


https://towardsdatascience.com/analyzing-k-pop-using-machine-learning-part-2-exploratory-data-analysis-eda-61f0cbf95a2a


2020-08-11 10:48895

评论

发布
暂无评论
发现更多内容

2021 企业架构(EA)状态调查报告

涛哥

企业架构

python使用 pywin32 模块操作 excel,Python 操作 excel 系列之五

梦想橡皮擦

5月月更

机器学习:真正的底层是什么?

海拥(haiyong.site)

5月月更

浅谈Java中的Math.random

秋名山码民

java 5月月更

赫卡忒的眼眸:微光手机“夜视仪”是怎样炼成的?

脑极体

java内存模型之happenbefore原则

周杰伦本人

5月月更

JAVA为什么需要泛型?

源字节1号

软件开发 后端开发 小程序开发

架构训练营-毕业总结

默光

架构训练营5期

Go Web 编程入门:创建动态 HTML 和文本文件

宇宙之一粟

Web Go 语言 5月月更

如何开发LAXCUS分布式应用软件(一):前言

LAXCUS分布式操作系统

集群 并行计算 分布式操作系统 分布式应用软件

C语言_语句与位运算练习

DS小龙哥

5月月更

复杂任务中,流程的解耦设计

知了一笑

架构 事件驱动 任务管理 异步设计

模块五作业

HZ

架构实战营 #架构实战营

模块五:作业

本人法海

「架构实战营」

集成 ShenYu 网关实现 Dubbo 泛化调用

码农大熊

盘古开发框架 Dubbo网关 泛化调用 ShenYu网关

抖音严打虚假宣传滋补膳食内容广告主:必须严格监管信息流广告

石头IT视角

在线TSV转HTMLTable工具

入门小站

工具

模块5 作业

KennyQ

全链路压测(十一):聊聊稳定性预案

老张

性能测试 全链路压测

八、高可用之故障隔离

穿过生命散发芬芳

5月月更 高可用设计

Nacos源码系列—服务端那些事儿

牧小农

源码 nacos

架构实战营总结

晨亮

「架构实战营」

面向对象的系统分析

奔向架构师

信息系统 5月月更

linux之man命令

入门小站

在线HTML文本提取URL链接工具

入门小站

工具

python之pythonic

AIWeker

Python 人工智能 5月月更

【愚公系列】2022年05月 二十三种设计模式(八)-组合模式(Composite Pattern)

愚公搬代码

5月月更

百万级电商秒杀架构设计

晨亮

「架构实战营」

【建议收藏】Mysql知识干货(mysql八股文)汇总

利志分享

面试 面试题 MySQL 数据库 面试问题 MySQL InnoDB

Nginx 的日志

HoneyMoose

Hadoop Java api操作hdfs(一)

Emperor_LawD

hadoop 5月月更

用机器学习分析流行音乐(二):探索性数据分析_AI_Jaemin Lee_InfoQ精选文章