近日,来自新西兰汉密尔顿的统计学家 Hadley Wickham 因“在统计计算、可视化、图形和数据分析方面颇具影响力的工作”,赢得了 2019 年考普斯会长奖。值得关注的是,此前,该奖项主要表彰对统计学具有突出理论贡献的学者,而今年是第一次向实际应用者授予奖项。
据了解,考普斯会长奖设立于 1976 年,由“统计学会会长委员会”(Committee of Presidents of Statistical Societies,简称 COPSS 考普斯)提名颁奖,每年颁发给一位 40 岁以下的统计学杰出学者。由于诺贝尔奖项中没有统计学,因此该奖项在国际上被称为统计学的“诺贝尔”奖,与国际统计奖一同被视为统计学的两个最高奖项。
Hadley Wickham(图源:Hadley Wickham 网站)
今年荣获此项殊荣的 Hadley Wickham 现任 RStudio 首席科学家,奥克兰大学、斯坦福大学以及莱斯大学统计学副教授。Wickham 的工作建立在“R”的成功之上,这是一种开源的统计学编程语言,由奥斯卡大学的 Ross Ihaka 和 Robert Gentleman 创建。
“我在奥克兰大学学习,那里是 R 语言的故乡,几乎每个人都在使用它。作为一个学生,我不得不用它来做统计。我发现它非常有趣,而且是一种结合了我的兴趣的技能。从那以后,我在奥克兰获得了统计学硕士学位,并在美国获得了博士学位,”他说。
Wickham 是 R语言 社区重要且活跃的成员,开发了包括 ggplot2、plyr、dplyr 以及 reshape2 等开源统计分析软件包,实现了数据可视化和数据转换的逻辑。他为 R 开创了一套最初被称为“Tidyverse”的工具。为了表彰他的重要贡献,统计界将这些工具称为“hadleyverse”。此外,Wickham 的软件包和写作还以提倡数据导入、分析和建模方法的整洁数据方法而闻名。其基本含义为,当人们处理数据时,应确保每一列都是一个变量,因此每一行都是一个观察值。用这样的方式存储数据,会更加便利高效。他将自己描述为工具制造者,不是锤子或螺丝刀等物理工具,而是以相同方式工作的软件工具。目前,Wickham 的成果每天都在被全世界成千上万的人使用,包括《新西兰先驱报》的数据记者。BBC 最近还发布了一份关于如何使用 Wickham 新闻图形工具的详细指南。
相对于其他工具集和平台,为什么 Wickham 会选择 R,又是什么原因促使 R 成为数据分析和可视化的有效环境呢?对此,Wickham 表示,
“当我开始学习 R 时,原因很简单:它是统计方面唯一的开源编程语言。今天,随着 Python、JavaScript 和 Scala 等语言的出现,这种情况显然发生了变化。
那么为什么我现在还要用 R 呢?当谈到选择编程语言时,我总是说人们不应该根据技术优势来选择它们,而是应该根据社区来选择它们。我认为 R 社区是非常强大的,它充满活力、自由、友好,并拥抱广泛的领域。这是第一个原因。
第二个原因既是 R 的巨大优势,也是它的一个弱点,那就是 R 不仅仅是一种编程语言。它从第一天就被设计成一个可以进行数据分析的环境。因此,与 Python 等其他选项相比,你可以直接从 R 开始进行数据科学研究,学习更少的编程入门知识。如果你没有接受过计算机科学或软件工程方面的培训, R 通常可以让你更容易上手。“
他补充道,“如果你想创建非常棒的可视化效果,我认为 JavaScript 是一个选择,但我无法想象用 JavaScript 做数据清理。所以,我认为所有数据科学工作的主要竞争对手是 R 和 Python。显然,我有很大的偏见,因为我真的很喜欢 R 和 Python……作为一种编程语言,R 有点奇怪,但它的优点之一是,你可以得到一些基本的模板,可以复制和粘贴它们。你不需要知道函数是什么,不需要学习任何编程语言术语,你可以一头扎进去。而使用 Python,你会学到更多,那就是编程。”
相关链接:
https://github.com/hadley?utf8=%E2%9C%93&button=
评论 1 条评论