写点什么

年薪百万的机器学习专家,为什么不产生价值?

  • 2017-05-09
  • 本文字数:1837 字

    阅读完需:约 6 分钟

编者按:“范式大学”由第四范式发起,致力于成为培养工程师转型为数据科学家的“黄埔军校”。专栏专注于以人工智能解决具体商业问题。在这里你将会看到,企业如何通过可实施的方法完成 AI 转型;个人如何通过最新的科技工具,快速成为能解决问题的机器学习工程师。

Part 1:

一个朋友的企业,他们招聘了 2 名机器学习方向的数据科学家,加起来年薪百万。

但一段时间的蜜月期后,他们发现机器学习专家没有给公司带来实际价值。高管们不知道他们具体做了什么,业务人员每周都给他们提出预测需求,却很少能在短时间得到回应。

不到一年,公司和机器学习专家们就不欢而散 o 了。

Part 2:

巧合的是,从他们公司离职的机器学习专家是我的朋友。

当我问他这个问题时,他说自己每天都忙得不可开交,却得不到公司其他人的理解。他和我描述了自己的工作过程。

他花了很多时间搭建了机器学习需要的计算环境。

他花了很多时间做建模前的数据清洗和处理。

他花了很多时间做模型选择和参数调整,以得到更好的结果。

他花了很多时间做实时预测的功能,为了达到毫秒级的延迟花费了大量心血。

……

实际上,要完成一个机器学习的模型要做很多事情。团队人数本来就少,事情又多,他的兴趣只能集中在模型本身上了。

至于这些模型对应的业务问题,例如怎么定义问题,确定哪个指标?虽然也重要,但他觉得这些主要是业务人员去解决的。

(估计业务人员也觉得,这是属于机器学习专家解决的事情)

Part 3:

实际上,这个问题不是个例,大部分公司在引入机器学习专家后,都会面临这样的疑问。

来自 MIT 的机器学习研究员 Kalyan Veeramachaneni 曾经做过一次调查,在一个 150 个机器学习爱好者的小组中,他询问说:“你们有多少人建立过机器学习的模型?”大约有 1/3 的人举手。而当他进一步问:“有多少人使用这个模型产生价值并衡量它?”结果没有一个人举手。

换句话说,机器学习专家们把 90% 的时间都放在了数据准备、处理、特征工程、建模、调参上,而背后的业务问题和商业问题, 很多时候没有纳入严格的考虑。

但是要让数据产生真正的价值,就要把数据和商业价值联系起来,这至少要花费 50% 以上的精力。

Part 4:

相比之下,更为理想的局面是建立机器学习工程和商业价值之间的平衡。一般来说有 5 个原则:

1. 从最简单的模型开始

逻辑回归或者那些基于随机森林、决策树的模型,就足以解决大部分的问题。所以你的重点,应该放在缩短数据采集和模型建立的时间。

2. 探索更多问题

相比于通过一个难以置信的模型探索一个业务问题,你应该探索数十个问题,然后为每个问题都创造一个相对简单的预测模型,并评估模型背后的商业价值。

3. 用全部的数据和特征训练模型

过去机器学习的能力不够,很多时候是依靠人力筛选出样本数据和特征进行模型训练。但随着计算资源越来越便宜,人力成本越来额越高,你应该用全部的数据和特征训练模型,以得到更好的效果。

4. 业务驱动模型

让机器学习专家和业务人员有更多的配合。实际上,很多想法都来自于业务部门的设想,机器学习专家和他们一起探索出对公司有价值的解决方案。

5. 专注于自动化

为了更快地获得第一个模型,缩短探索问题的速度,公司要自动执行通常由手动完成的任务。我们发现在不同的数据问题中,背后都应用了类似的数据处理技术,无论是在数据清洗、准备阶段,还是在数据建模阶段,亦或是在模型上线阶段。

Part 5:

这 5 个原则说的是,如果说机器学习是一场战役,过去强调的是战士的能力和经验,现在则更为强调军火的选择。

就像在伊拉克战争中,美国部队强调的是每平方公里的弹药投放量,最终投放了 60 亿颗弹药。虽然是一个不太恰当的比喻,但是机器学习未来的趋势就是大规模机器学习平台的出现,通过大规模计算解决具体的业务问题。大规模机器学习平台,就是企业未来最重要的军火。

所以对于机器学习专家来说,他也许不能一个人就把事情做完,但是给他工具就可以了。

Part 6:

在我的介绍下,那位机器学习专家又回到了那家公司,1 个人,1 个月,完成了过去 1 年都没完成的工作。

参考资料:

https://hbr.org/2016/12/why-youre-not-getting-value-from-your-data-science

https://inform.tmforum.org/sponsored-feature/2017/04/data-no-value-lacks-purpose/

http://blog.predikto.com/2016/12/28/the-missing-link-in-why-youre-not-getting-value-from-your-data-science/


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-05-09 19:002009

评论

发布
暂无评论
发现更多内容

朋友入职阿里请我吃饭,只因为面试前我逼他看了这些,经验很重要

小Q

Java 学习 程序员 架构 面试

巡展2020第十三届亚洲国际物联网展览会-南京站

InfoQ_caf7dbb9aa8a

无代码平台,完成业务的最后一公里

蓝黑

数字货币管理,3 大新模式来了!

CECBC

区块链 数字货币

小朋友都能看懂的 HTTPS

Java架构师迁哥

面试官:讲讲Redis的五大数据类型?如何使用?(内含完整测试源码)

冰河

redis Jedis JedisCluster

三步带你开发一个短链接生成平台

葡萄城技术团队

Java SpreadJS Node

「架构师训练营第 1 期」第二周课后总结

睡不着摇一摇

极客大学架构师训练营

学完这篇Spring Cloud技术提升一个点!

Java架构师迁哥

大作业

SuperLab

JAVA集合之LinkedList底层实现和原理

彭阿三

linkedlist

12周作业-大数据

飞雪

实践案例丨ACL2020 KBQA 基于查询图生成回答多跳复杂问题

华为云开发者联盟

搜索 数据集 知识图谱

TensorFlow 篇 | TensorFlow 2.x 基于 Keras 模型的本地训练与评估

Alex

tensorflow 模型训练 keras

架构师训练营期末大作业

史慧君

问世间异步为何物?

架构师修行之路

微服务 异步

Redis做分布式锁可能不那么简单

架构师修行之路

分布式 分布式锁

甲方日常 22

句子

Vue 工作 随笔杂谈 日常

关于Java Servlet找不到自定义包或者第三方包

谷鱼

classes

架构师训练营第二周作业

Geek_4c1353

鼓励语言区块链技术的应用

CECBC

区块链

一个草根的日常杂碎(9月23日)

刘新吾

随笔杂谈 生活记录 社会百态

架构师训练营笔记2则分布式系统架构和数据结构

tuuezzy

二.图说Eureka源码(环境搭建)

阿亮

源码 SpringCloud Eureka

大作业

任小龙

“哥伦布”华为,与智能联接新大陆

脑极体

使用Grafana + simpod-json-datasource快速搭建数据看板

诸葛小猿

Grafana 数据可视化 simpod-json-datasource

智能体:华为给时代炼一炉钢

脑极体

换道超车 区块链是你的捷径

CECBC

区块链 互联网

智谱 AI 首席科学家唐杰团队荣获国际数据挖掘顶会时间检验应用科学奖

极客播报

让世界为之赞叹的开源项目,除了Linux,你知道Git吗?

小Q

Java git 学习 程序员 面试

年薪百万的机器学习专家,为什么不产生价值?_语言 & 开发_王嘉俊_InfoQ精选文章