写点什么

获取数据科学需要的数据

  • 2016-09-08
  • 本文字数:1679 字

    阅读完需:约 6 分钟

Lukas Vermeer 是一名经验丰富的数据科学专家,同时也是 Booking.com 试验部门产品负责人。他认为,数据科学和你需要的数据有关;决定收集、创建或保留什么数据是基础。真正的创新始于提出重大的问题,然后就很容易知道需要哪些数据才能找到你寻找的答案。在 GOTO 阿姆斯特丹 2016 大会上,Vermeer 探讨了数据科学与数据炼金术。

Christine Doig 是 Continuum Analytics 的高级数据科学家。她在文章“作为一门团队学科的数据科学”中将数据科学定义为:

我喜欢将 [数据科学] 想象成胶水,它将不同领域和思路粘合在一起,通常用于解决数据相关的问题,并将信息转换成知识和可行的见解。

在 InfoQ 文章“ 2016 年数据科学家将扮演什么角色”中,Ed Jones 解释了为什么大数据和数据科学很重要:

我们已经处在大数据时代,这是无法改变的事实。随着数据量与日俱增,从这些数据中提取出价值的工作只会慢慢变得更加复杂和困难。大数据经济背后的逻辑,正在以无法想象或预测的方式重塑我们的生活;我们做出的每一个电子操作都将产生数据,并留下与自己生活相关的蛛丝马迹。

Vermeer 表示,“我们希望检验一下,人们是否喜欢我们对网站所做的修改”。Booking.com 借助试验和其他形式的数据收集不断地改进他们的网站,创建更好的客户体验。

Vermeer 指出,“你可以拥有大量的数据,但如果你不知道能用它们干什么,那就没有用。”更多的信息并不一定形成更好的决策。数据科学和你需要的数据有关,通常,那和你拥有的数据不同。Vermeer 说,科学受数据所限,而数据为工程技术所限。你必须考虑如何创建所需的数据,以便能够取得进展。

在演讲中,Vermeer 使用了太阳系科学史上的例子。为了展示数据如何为工程技术所限,他回顾了天文学研究的一段历史。托勒密没有发现科里奥利效应和恒星视差,因为他没有足够准确的测量设备,而且这两种效应都非常微弱。除了其他因素之外,缺少证据让他得出了地球不动这个结论。对于托勒密而言,有关这两种效应的数据明显是受当时的工程技术所限。关于这一点,回顾过去更容易看出来,但同样适用于今天。

Vermeer 认为,模型并非必不可少,但如果它们有助于预测未来,就是有用的。可能有多个模型可以解释已有的数据。但你无法使用自己拥有的数据证明哪个模型正确。确定哪个模型更接近真相需要你收集新的数据。

Vermeer 提到了 Kaggle.com。这是一个数据科学家社区,从中你可以学到如何解决复杂的数据科学问题,结识其他的数据科学家。

你可以通过分析客户评论并查找关键词(比如可以表明人们喜欢或不喜欢旅馆的词语)进行情感分析。但是,你也可以在评论表单里提供两个输入框,一个用于输入人们喜欢的东西,一个用于人们不喜欢的东西。Vermeer 表示,这种方法就解决了数据收集时的情感分析问题。

Vermeer 建议考虑你能够创建的数据。如果这份数据与已有的数据部分重叠,你可以选择保留那份数据,或者在需要的时候重新创建。成本和风险(比如泄露个人身份信息(POII)数据)是决定保留或重建的两个主要原因。保留数据的成本显而易见。可能还有其他方面的考虑,这取决于现有的数据。

也会有你需要但是无法获得的数据。作为一种解决方案,你可以使用代理数据:和你需要的数据相关而又可以获得的数据,那样,你就可以用它替代需要的数据。

Vermeer 举了一个例子。Booking.com 举办了一个邮件发送活动,使用个性化设置向旅行者宣传旅游目的地。有些客户认为,邮件的措辞令人害怕,因为它让他们觉得,有人逐个分析了客户过去的购买记录,才提出了那样的建议。实际上,那些建议是基于一个机器学习模型,而不是人的判断。在下一次活动中,邮件文本重新措辞,在没有对预测模型做任何修改的情况下,效果提升了两倍。

Vermeer 表示,由于数据科学是一门科学,而不是炼金术,所以决定收集什么数据以及如何收集是基础步骤。

“犯了错,你能承担得起吗?”“你可以不知道吗?”这是演讲结束时 Vermeer 向听众提出的问题。他引用了伏尔泰的一句话:“判断一个人凭的是他的问题而不是他的回答。”如果人们提出的问题让我思考以前从未想过的东西,那很好,Vermeer 如是说。

查看英文原文 Getting the Data Needed for Data Science

2016-09-08 19:001783
用户头像

发布了 1008 篇内容, 共 401.9 次阅读, 收获喜欢 345 次。

关注

评论

发布
暂无评论
发现更多内容

从玄学走向科学:在字节跳动广告投放这么干

字节跳动数据平台

大数据 字节跳动 广告系统 ab测试

CVPR2022 前沿研究成果解读:基于生成对抗网络的深度感知人脸重演算法

阿里云CloudImagine

阿里云 计算机视觉 音视频 视频云 人脸算法

Flink 流批一体在小米的实践

Apache Flink

大数据 flink 编程 流计算 实时计算

泡沫之下或许是中国的“第四消费时代”

基调听云

入驻快讯|欢迎小红书技术团队正式入驻 InfoQ 写作社区!

InfoQ写作社区官方

入驻快讯

OpenHarmony 3.1 Beta样例:使用分布式菜单创建点餐神器

OpenHarmony开发者

OpenHarmony OpenHarmony应用开发 点餐

攻克编译器技术

刘旭东

编程语言 编译器原理 4月月更

10月阿里面试总结:必问的Spring面试解析,面试时要注意的那些坑

爱好编程进阶

Java 面试 后端开发

TASKCTL 作业流程与模块之间的区别

敏捷调度TASKCTL

Docker kettle 批量任务 调度引擎 ETL任务

建信金科在中国建设银行物联网平台项目的实践

EMQ映云科技

物联网 IoT 金融 银行 emq

web前端培训React基础知识点的梳理

@零度

前端开发 React

云图说丨云数据库 RDS for MySQL一键开通读写分离,轻松应对业务高峰期

华为云开发者联盟

MySQL 华为云 读写分离 云数据库 rds for mysql

测试的最终产物是什么

chenkl

测试 思维 测试原则

2020大厂秋招面试末班车,阿里架构师献给java程序员的面试全攻略

爱好编程进阶

Java 面试 后端开发

网易互娱基于 Flink 的支付环境全关联分析实践

Apache Flink

大数据 flink 编程 流计算 实时计算

移动应用性能管理白皮书最新发布

基调听云

APM App 基调听云 行业报告

探究Presto SQL引擎(2)-浅析Join

vivo互联网技术

数据库 算法 presto

2021春招涨薪跳槽技术必备:分布式宝典“限流

爱好编程进阶

Java 面试 后端开发

网站速度优化的三套解决方案!

源字节1号

微信小程序 前端开发 后端开发 SEO优化

Demo:第三章:权限框架spring security oauth2

爱好编程进阶

Java 面试 后端开发

4月28日,一场为IT工程师们准备的盛宴

观测云

云原生 可观测性 IT 直播 产品发布会

设计消息队列存储消息数据的MySQL 表格

Geek_8d5fe5

「架构实战营」

加速OpenHarmony生态繁荣,华为使能OpenHarmony发行版厂商

科技汇

Docker 实战教程之从入门到提高 (六)

汪子熙

Docker 容器 docker image 容器镜像 4月月更

28岁自学java,包装简历3年拿到15k薪资,分享我的学习经历

爱好编程进阶

Java 面试 后端开发

CentOS8安装Docker

爱好编程进阶

Java 面试 后端开发

CRUD多年,终获腾讯offer,就靠这几套面试题

爱好编程进阶

Java 面试 后端开发

java培训Mybatis动态Sql处理解析

@零度

sql mybatis JAVA开发

5 月亚马逊云科技培训与认证课程,精彩不容错过!

亚马逊云科技 (Amazon Web Services)

架构师 培训 认证

大数据培训Flink 常见的维表 Join 方案

@零度

大数据 flink join

2021最新「阿里」Java高级工程师面试高频题

爱好编程进阶

Java 面试 后端开发

获取数据科学需要的数据_大数据_Ben Linders_InfoQ精选文章