获取数据科学需要的数据

Lukas Vermeer 是一名经验丰富的数据科学专家，同时也是 Booking.com 试验部门产品负责人。他认为，数据科学和你需要的数据有关；决定收集、创建或保留什么数据是基础。真正的创新始于提出重大的问题，然后就很容易知道需要哪些数据才能找到你寻找的答案。在 GOTO 阿姆斯特丹 2016 大会上，Vermeer 探讨了数据科学与数据炼金术。

Christine Doig 是 Continuum Analytics 的高级数据科学家。她在文章“作为一门团队学科的数据科学”中将数据科学定义为：

我喜欢将 [数据科学] 想象成胶水，它将不同领域和思路粘合在一起，通常用于解决数据相关的问题，并将信息转换成知识和可行的见解。

在 InfoQ 文章“ 2016 年数据科学家将扮演什么角色”中，Ed Jones 解释了为什么大数据和数据科学很重要：

我们已经处在大数据时代，这是无法改变的事实。随着数据量与日俱增，从这些数据中提取出价值的工作只会慢慢变得更加复杂和困难。大数据经济背后的逻辑，正在以无法想象或预测的方式重塑我们的生活；我们做出的每一个电子操作都将产生数据，并留下与自己生活相关的蛛丝马迹。

Vermeer 表示，“我们希望检验一下，人们是否喜欢我们对网站所做的修改”。Booking.com 借助试验和其他形式的数据收集不断地改进他们的网站，创建更好的客户体验。

Vermeer 指出，“你可以拥有大量的数据，但如果你不知道能用它们干什么，那就没有用。”更多的信息并不一定形成更好的决策。数据科学和你需要的数据有关，通常，那和你拥有的数据不同。Vermeer 说，科学受数据所限，而数据为工程技术所限。你必须考虑如何创建所需的数据，以便能够取得进展。

在演讲中，Vermeer 使用了太阳系科学史上的例子。为了展示数据如何为工程技术所限，他回顾了天文学研究的一段历史。托勒密没有发现科里奥利效应和恒星视差，因为他没有足够准确的测量设备，而且这两种效应都非常微弱。除了其他因素之外，缺少证据让他得出了地球不动这个结论。对于托勒密而言，有关这两种效应的数据明显是受当时的工程技术所限。关于这一点，回顾过去更容易看出来，但同样适用于今天。

Vermeer 认为，模型并非必不可少，但如果它们有助于预测未来，就是有用的。可能有多个模型可以解释已有的数据。但你无法使用自己拥有的数据证明哪个模型正确。确定哪个模型更接近真相需要你收集新的数据。

Vermeer 提到了 Kaggle.com。这是一个数据科学家社区，从中你可以学到如何解决复杂的数据科学问题，结识其他的数据科学家。

你可以通过分析客户评论并查找关键词（比如可以表明人们喜欢或不喜欢旅馆的词语）进行情感分析。但是，你也可以在评论表单里提供两个输入框，一个用于输入人们喜欢的东西，一个用于人们不喜欢的东西。Vermeer 表示，这种方法就解决了数据收集时的情感分析问题。

Vermeer 建议考虑你能够创建的数据。如果这份数据与已有的数据部分重叠，你可以选择保留那份数据，或者在需要的时候重新创建。成本和风险（比如泄露个人身份信息（POII）数据）是决定保留或重建的两个主要原因。保留数据的成本显而易见。可能还有其他方面的考虑，这取决于现有的数据。

也会有你需要但是无法获得的数据。作为一种解决方案，你可以使用代理数据：和你需要的数据相关而又可以获得的数据，那样，你就可以用它替代需要的数据。

Vermeer 举了一个例子。Booking.com 举办了一个邮件发送活动，使用个性化设置向旅行者宣传旅游目的地。有些客户认为，邮件的措辞令人害怕，因为它让他们觉得，有人逐个分析了客户过去的购买记录，才提出了那样的建议。实际上，那些建议是基于一个机器学习模型，而不是人的判断。在下一次活动中，邮件文本重新措辞，在没有对预测模型做任何修改的情况下，效果提升了两倍。

Vermeer 表示，由于数据科学是一门科学，而不是炼金术，所以决定收集什么数据以及如何收集是基础步骤。

“犯了错，你能承担得起吗？”“你可以不知道吗？”这是演讲结束时 Vermeer 向听众提出的问题。他引用了伏尔泰的一句话：“判断一个人凭的是他的问题而不是他的回答。”如果人们提出的问题让我思考以前从未想过的东西，那很好，Vermeer 如是说。

查看英文原文： Getting the Data Needed for Data Science

创作场景

获取数据科学需要的数据