飞天发布时刻:2024年 Forrester 公有云平台Wave™评估报告解读 了解详情
写点什么

Quora 数据科学家和机器学习工程师是如何合作的

  • 2015-12-17
  • 本文字数:974 字

    阅读完需:约 3 分钟

数据科学家和机器学习工程师如何有效协作是一个困扰许多公司的问题。在前不久于旧金山举行的 MLConf 大会上,Quora 工程副总裁 Xavier Amatriain 介绍了他们应对这一问题的方法。近日,他又援引Quora 数据科学家 William Chen 的说法进一步阐述了 Quora 的做法。

按照 William 的说法,在 Quora,机器学习工程师是工程部门的组成部分,而数据科学家是数据科学部门的组成部分。工程部门负责构建产品和算法,并保证其快速可靠地运行,而数据科学部门负责理解 Quora 的数据,并指导产品决策。但机器学习工程师和数据科学家都会参与机器学习项目,他们的工作主要有如下两个方面的差别:

  • 机器学习工程师构建、实现和维护机器学习系统;
  • 数据科学家进行研究,提出有关机器学习项目的构想,并通过分析了解机器学习系统对公司指标的影响。

更具体地讲,机器学习工程师负责:

  • 构建和实现机器学习系统;
  • 维护机器学习系统,包括速度、可靠性和性能;
  • 开发供内部(机器学习工程师和数据科学家)使用的机器学习框架,为了一些常见任务(如训练 / 测试)提供便利。

数据科学家负责:

  • 评估潜在的或现有的方法、功能、算法或误差度量指标,帮助改进机器学习系统;
  • 分析机器学习算法对公司关键指标的影响;
  • 通过构建机器学习模型(仅用于一次性分析而不放入生产环境)研究和了解用户行为模式。

通常,机器学习项目会同时配备数据科学家和机器学习工程师。在 Quora,他们通过如下三个步骤实现合作:

  • 数据科学家进行研究,确定机器学习系统可能的需求或改进项;
  • 机器学习工程师构建、实现或改进机器学习系统;
  • 数据科学家评估机器学习系统对公司关键指标的影响。

对于 William 的说法,Xavier 作了一些补充。他认为,机器学习团队和数据科学团队的界限很模糊。他更喜欢谈论两者的工作重心,而不是界限,因为定义团队的目标是明确重点,而不是制造分歧。同样地,机器学习工程师和数据科学家的界限也不清晰,那取决于个人的职业选择和背景。例如,机器学习工程师并不一定是个编码专家,他可以是一个有丰富机器学习经验的人。数据科学家同样如此。


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群InfoQ 好读者(已满),InfoQ 读者交流群(#2)InfoQ 好读者)。

2015-12-17 18:002217
用户头像

发布了 1008 篇内容, 共 406.8 次阅读, 收获喜欢 345 次。

关注

评论

发布
暂无评论
发现更多内容

hometown-h5-template 一个开箱即用的前端H5解决方案 🎉

HoMeTown

架构 Vue 前端 vite ts

IoT平台实现RRPC同步调用最佳实战——实践类

阿里云AIoT

物联网 API 应用服务中间件

IoT物联网平台通信用Topic梳理——实践类

阿里云AIoT

物联网

ChatGPT 不是黑魔法,“替代搜索引擎”言之尚早

Zilliz

搜索引擎 ChatGPT

WebUI自动化测试框架搭建之需求整理、详细设计和框架设计

Python 自动化测试 unittest 测试框架 selenium

灰度直方图及直方图均衡化

timerring

图像处理 数字图像处理

会声会影软件2023新功能详情介绍

茶色酒

会声会影2023

IoT场景中查看设备当前运行状况实现方案——实践类

阿里云AIoT

物联网 存储

揭秘可视化图探索工具 NebulaGraph Explore 是如何实现图计算的

NebulaGraph

可视化 图数据库

IoT存量设备跨账号迁移,动态切换region节点,公共区到企业实例迁移方案——实践类

阿里云AIoT

物联网 API 应用服务中间件 储存

一文看懂倚天云实例|科普漫画

云布道师

倚天实例

我直接就是一个下载推特GIF动图的大动作!巨简单!

frank

twitter

Asian Paints 利用 F5 Silverline Web Application Firewall 实现转型

F5 Inc

数字化转型 托管 云端

[C语言]支持IPv6的地址查询的函数getaddrinfo()——实践类

阿里云AIoT

人工智能 网络协议 C语言

2023年中国人工智能产业趋势报告

易观分析

人工智能 科技 ChatGPT

灵眸大赏第一天议程公布|超30+企业,共话“2023年增长”趋势

Morketing

活动 营销

不为人知的网络编程(十五):深入操作系统,一文搞懂Socket到底是什么

JackJiang

爱立信钱包平台 (Ericsson Wallet Platform) 与 F5 合作推动金融包容性和赋权

F5 Inc

架构 安全 金融 移动支付

coreldraw2023新功能新图标功能介绍

茶色酒

CorelDraw2023

设备在线/离线状态的缓存方案——实践类

阿里云AIoT

缓存 物联网 存储 数据格式 测试技术

软件测试/测试开发 | Frida 实现 Hook 功能的强大能力

测试人

软件测试 自动化测试 测试开发

IoT平台业务通信Topic设计最佳实践(共享场景为例)——实践类

阿里云AIoT

物联网 网络性能优化

Serverless 时代开启,云计算进入业务创新主战场

阿里巴巴云原生

阿里云 Serverless 云原生

如何在OpenCV Python中从立体图像创建深度图?

吴脑的键客

OpenCV 计算机视觉

全球律师事务所 Ogletree Deakins 借助 F5 云服务快速实现远程办公

F5 Inc

云计算 远程办公 云服务 律师

NFT艺术品铸造竞拍商城dapp系统开发合约定制

开发微hkkf5566

技术分享| 如何使用Prometheus实现系统监控报警邮件通知

anyRTC开发者

Linux 运维 Prometheus 服务器 系统监控报警邮件通知

火山引擎DataLeap:揭秘字节跳动数据血缘架构演进之路

字节跳动数据平台

云服务 数据血缘 企业号 2 月 PK 榜

构建隐私计算三大生态,百度点石为政务数据要素市场护航

百度安全

隐私计算 百度安全

理论+实战,详解Sharding Sphere-jdbc

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 3 月 PK 榜

Quora数据科学家和机器学习工程师是如何合作的_语言 & 开发_谢丽_InfoQ精选文章