数据科学家会失业吗?
本文最初发表在 InfoWorld,经 InfoWorld 授权,InfoQ 中文站翻译并分享。
AutoML 正在准备把开发人员变成数据科学家,反之亦然。本文阐述了 AutoML 将如何从根本上改进数据科学,使之变得更好。
我们所知的数据科学家的角色在下一个十年将与现在有很大的不同,但是别担心,没有人预测数据科学家会失业,他们只不过是换了工作而已。
数据科学家们不会有问题的:据美国劳工统计局(Bureau of Labor Statistics,BLS)的数据显示,到 2029 年,这一角色仍将以高于平均水平的速度增长。但是,技术的进步将使数据科学家的职责以及商业分析的整体方式发生重大变化。而AutoML 工具将引领这场革命,它将帮助机器学习管道从原始数据到可用模型实现自动化。
十年后,数据科学家将会拥有完全不同的技能和工具,但是他们的作用仍然保持不变:他们作为有信心、有能力的技术指导者,能够理解复杂的数据以解决问题。
AutoML 使数据科学民主化
直到最近,机器学习算法和过程几乎完全是更传统的数据科学角色的领域:那些受过正规教育、拥有高等学历,或者在大型科技公司工作的人。在机器学习开发领域的每个环节,数据科学家都扮演着重要的角色。
但是,随着时间的推移,他们的角色将变得更具协作性和战略性。有了像 AutoML 这样的工具,数据科学家能够集中精力指导组织通过数据来解决业务问题,从而实现一些更学术的技能自动化。
从许多方面来说,这是因为 AutoML 使机器学习付诸实践的努力民主化了。不同的供应商,从初创企业到云计算超大型公司,都推出了足够容易的解决方案,让开发者可以使用和实验,并且没有很大的教育或经验障碍。
类似的,一些 AutoML 应用程序也非常直观和简单,非技术人员可以尝试为自己部门中的问题创建解决方案,从而在本组织内部创造出各种各样的“公民数据科学家”。
要探究这些类型的工具为开发人员和数据科学家解锁新技能的可能性,我们首先要了解数据科学的现状,因为它与机器学习开发有关。如果将它放在一个成熟度的尺度上来看,是最容易理解的。
规模较小的组织和企业,其负责数字化转型的角色比较传统(即没有受过传统训练的数据科学家),通常属于这种规模的这一端。目前,他们是开箱即用的机器学习应用的最大客户,而这些应用更多的是面向那些不熟悉机器学习复杂性的受众。
优点:这些交钥匙应用程序往往易于实施,也相对便宜,并且容易部署。对于有非常具体的自动化或改进过程的小型公司来说,市场上可能有几种可行的选择。较低的进入壁垒使得这些应用对于首次涉足机器学习的数据科学家来说再合适不过了。由于某些应用程序非常直观,所以它们甚至允许非技术人员有机会尝试自动化和高级数据功能——有可能为组织引入一个有价值的沙盒。
缺点:这类机器学习应用程序是出了名的不灵活。虽然它们很容易实现,但它们却不容易定制。因此,对于某些应用而言,某些级别的精度可能是不可能的。此外,由于对预训练模型和数据的依赖,这些应用程序可能会受到严重限制。
这些应用程序的示例包括 Amazon Web Services 的 Amazon Comprehend、Amazon Lex 和 Amazon Forecast,以及 Microsoft Azure 的 Azure Speech Services 和 Azure Language Understanding(LUIS)。这些工具通常足以让萌芽中的数据科学家迈出机器学习的第一步,并引导他们的组织进一步走向成熟。
使用 AutoML 的可定制解决方案
拥有大型但相对常见的数据集的组织——想想客户交易数据或营销电子邮件指标——在使用机器学习解决问题时需要更多的灵活性。使用 AutoML 吧。AutoML 将手动进行机器学习工作流程的步骤(数据发现、探索性数据分析、超参数调整等)浓缩成一个可配置的栈中。
优点:AutoML 应用可以在更大的空间内对数据进行更多的实验。但 AutoML 真正的超强之处在于可访问性:可以构建自定义的配置,并且可以相对轻松地完善输入。更重要的是,AutoML 并不是专门以数据科学家为受众而制作的。开发者也可以轻松地在沙盒内修修补补,将机器学习元素引入自己的产品或项目中。
缺点:虽然它很接近,但 AutoML 的局限性意味着输出的正确率将很难达到完美。正因为如此,持有学位和从业资格证的数据科学家往往看不起借助 AutoML 构建的应用程序——即使结果正确到足以解决手头的问题。
这些应用程序的例子包括Amazon SageMaker AutoPilot或Google Cloud AutoML。十年后的数据科学家无疑需要熟悉这些工具。就像一个精通多种编程语言的开发人员一样,数据科学家也需要精通多种 AutoML 环境,才能被视为顶尖人才。
“手动”和自主研发的机器学习解决方案
最大的企业规模的企业和财富 500 强企业是目前开发大多数先进和专有的机器学习应用的地方。这些组织中的数据科学家是大型团队的一部分,他们利用大量的公司历史数据完善机器学习算法,并从头开始构建这些应用程序。像这样的定制应用只有在拥有相当多的资源和人才的情况下才有可能实现,这也是为什么回报和风险如此之大的原因。
优点:像任何从头开始构建的应用程序一样,自定义机器学习是“最先进的”,并且是基于对手头问题的深刻理解而构建的。它也比 AutoML 和开箱即用的机器学习解决方案更精确——即使只有很小的误差。
缺点:让定制的机器学习应用达到一定的正确度阈值是非常困难的,往往需要数据科学家团队进行繁重的工作。此外,定制化机器学习选项是最耗时、最昂贵的开发方式。
手动式机器学习解决方案的一个例子是,从一个空白的 Jupyter Notebook 开始,手动导入数据,然后手动进行从探索性数据分析到模型调整的每一步。这通常是通过使用Scikit-learn、TensorFlow、PyTorch等开源机器学习框架编写自定义代码来实现的。这种方法需要高度的经验和直觉,但可以产生的结果往往比交钥匙的机器学习服务和 AutoML 都要好。
像 AutoML 这样的工具将在未来 10 年改变数据科学的角色和责任。AutoML 承担了数据科学家从头开始开发机器学习的重担,而是将机器学习技术的可能性直接交到其他问题解决者手中。有了腾出的时间专注于他们所知道的——数据和输入本身——十年后,数据科学家将为他们的组织提供更有价值的指导。
作者介绍:
Eric Miller 在 Rackspace 担任技术战略高级总监,他在 Amazon Partner Network(APN,Amazon 合作伙伴网络)生态系统的实践构建方面拥有良好的业绩记录。作为一名在企业 IT 领域拥有 20 年成功经验的技术领导者,Eric 领导了多项 AWS 和解决方案架构项目,包括 AWS Well Architected Framework(WAF)评估合作伙伴计划、适用于 Windows Server 的 Amazon EC2 AWS 服务交付计划,以及为数十亿美元的组织进行各种 AWS 重写。
原文链接:
https://www.infoworld.com/article/3596894/todays-data-science-roles-wont-exist-in-10-years.htm
评论 1 条评论