Airbnb 公司的数据科学领导 Riley Newman 最近发表了一篇文章,详细描述了加利福尼亚创业公司是如何定义和使用数据科学的。他解释说,数据其实就是用户的声音,而数据科学就是对用户行为的最科学解释。此外,他还详细介绍了一些对数据科学规模化很重要的举措,包括与其他团队数据科学家建立直接的合作关系,将数据科学整合进每一个业务流程,并建立一个快速运行且稳定性高的数据基础设施。
Airbnb 在成立初期,其创始人 Brian Chesky,Joe Gebbia 和 Nathan Blecharczyk 常常会亲自与客户和托管商会面,讨论如何改善服务。直至现在公司领导层还是会这么做,但公司现在每年都有 3000 万的客户,和每一个客户保持像之前那样面对面交流已经不现实了。取而代之的是,Airbnb 通过预订平台记录下客户的各种事件和行为,并对这些数据进行分析来了解用户喜欢什么和不喜欢什么。通过这种方式的反馈对于决策“社区成长,产品开发决策、资源优化”等问题是特别有价值的。但要想达到这一目的,首先要对数据进行破译,然后请数据科学家将其翻译成更适合决策的语言。
虽然这和公司历史有着强相关联系,但这种将数据比作“客户声音”和将数据科学家比作“翻译家”的设想很难长期保持下去,尤其是在公司快速增长期间。这篇文章中所描述的许多倡议中,有三个特别突出。
首先,数据科学家不应该被视为被动的数据收集人,而应该直接与其它业务职能进行互动,不仅要充分理解要解决的问题,还要确保决策者能直观的理解他们的分析结果。因此,数据科学家的所作所为将直接影响公司的决策。Airbnb 数据科学团队是由不同子团队协作构成的,合作伙伴可以直接与工程师,设计师,产品经理进行交流互动。
其次,数据和数据科学应该出现在决策过程中的每一个阶段。Airbnb 通常将整个过程分为 4 个阶段:学习、计划、测试和评估;他们每个人都得益于科学数据的不同因素。Rilley 说,“越是严格管理,Airbnb 的脚步就越平稳,公司里的人也就更具有影响力”。
最后,数据科学应该依赖于快速和稳定的基础设施,以减少在数据查询上所花费的时间,并赋予非科学家回答基础数据问题得机会。这在整个业务功能里推进民主化使用数据是极其有用的。
InfoQ 随后采访了 Riley,就 Airbnb 数据科学团队给出了一些见解。
InfoQ:您期望什么样的人才类型加入数据科学团队?
Riley:其实对于人才的招募并没有什么标准的模版,而我们更期待那些具备广泛工作背景且有成功特质的人。具有成功特质的人往往具备这些特性:好奇心,专注细节,高效沟通。当然,了解统计学和 Python 也很重要。
InfoQ:您是如何挑选优秀候选人的?
Riley:根据多年的经验积累,我们在面试过程会尽量将候选人或员工的负面因素最大化,以避免潜在的问题。目前的招聘过程主要是给候选人一些数据,一个宽泛的问题,然后看到他们如何解决。我们会让候选人加入到我们的团队,由团队成员集体根据候选人的问题解决能力、表达能力和相处能力来做评估。优秀的候选人一定会通过具有挑战的项目表现出其出众的特质。
InfoQ: 作为一名数据科学家,您最常用的工具或技术是什么?
Riley:大多数团队会在如下工具上花很多时间:利用 Hive 和 Presto(又名 SQL)从我们的 Hadoop 集群中提取数据,再用 R 和 Python 分析这些数据,用 Tableau 实施可视化处理。那些只知道 SQL 和 Python 的人想要插足数据科学领域,这能奉劝他们还嫩了点!
InfoQ: 在未来几年里,您希望看到那些技术得到长足发展?
Riley:其实这不是一两句话就能说清楚的,根据我们已上线的产品经验来看,我还需要收集更多的数据,并将这些数据转化为可行性较高的预测方案,要对商业决策有借鉴价值。越是接近并加强反馈回路,越是对我们有利。
Rilley 说,回顾在 Airbnb 工作的头五年,评估数据科学的影响力是一件很困难的事,但不久看到强大的基础设施之后,对事件影响力的评估能力不断增加,再加上对数据的系统化利用,使得各种决策的制定都是符合公司发展的。
查看英文原文: Riley Newman on How Airbnb Uses Data Science
感谢艾利特对本文的审校。
给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ , @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。
评论