写点什么

数据科学正在进入“无代码”的新时代

  • 2019-09-30
  • 本文字数:3437 字

    阅读完需:约 11 分钟

数据科学正在进入“无代码”的新时代

我们正在踏入数据科学实践的新阶段,“无代码”时代。就像其他重大的变化一样,这个阶段还没有非常成熟,但是改变的脚步却非常清晰。


即使仅仅过去了一周,也有一些我们不知道的新的自动化 / 无代码技术推出。有的是新成立的初创公司带来的整合产品。但更多的是现有的分析平台提供商增加的新功能或模块。


从这些自动化机器学习(AML)平台出现以来,我就一直在关注它们。在 2016 年春天,我第一次写文章讨论这些平台,标题为“到 2025 年,自动化技术会让数据科学家失业!”。


当然,这绝对不是我夸大其词,在过去的两年半内,自动化功能在我们行业中的传播速度是惊人的。



无代码数据科学


无代码数据科学,或者叫自动化机器学习,或者像 Gartner 所述的那样,“增强版”数据科学提供了一些便捷的工具。包括:


  • 向导平台:提供详细建模步骤的平台(但仍然需要用户来做这些步骤,比如说 BigML、SAS、Alteryx)。该平台是基于经典的拖放平台理念而设计的。

  • 自动化机器学习(AML):全自动化机器学习平台(比如 DataRobot)。

  • 会话分析:在最近的版本中,用户只需要用普通英语提出需要解决的问题,平台就会给出最佳答案,选择数据、功能、建模技术甚至最佳数据可视化。


这个列表还很好地阐述了发展时间表。向导平台已经过时了。AML 平台越来越多,越来越成熟。会话分析刚刚起步。

不仅仅是为了深入分析

工具的智能发展不限于预测 / 规范建模,而是扩展到数据混合和准备阶段,甚至是数据可视化领域。这意味着,传统的 BI 业务分析师,当然还有用户业务线经理(也称为公民数据科学家)都可以使用无代码智能功能。


这种发展的市场驱动是众所周知的。在深入分析和 AI 领域,这和短缺、成本和获得熟练的数据科学家有关。在这个领域,这和时间洞察力、效率和一致性有关。简而言之,就是用更少的资源、更快的速度完成更多的事情。


然而,在数据准备、混合、特征识别领域(这对数据科学家也很重要),真正吸引人的是大许多的数据分析师 / BI 从业者领域。在这个领域,传统静态数据的 ETL 仍然是一个巨大的负担,延误了从 IT 专家功能到自助服务的快速转换。

老树发新芽

在我 2001 年开始进入数据科学领域的时候,SAS 和 SPSS 还占据着主导地位,它们已经从专有代码转型为拖放平台模式,这是最早的自动化模式。


七八年后,学术研究领域更倾向于教学生 R 语言,可能是出于经济考虑,尽管 SAS 和 SPSS 可以让学生免费使用,但它们还是会向导师收费,虽然提供巨大的学术研究折扣,而 R 语言却是免费的。


然后我们又回到了之前的时代,直至今天,数据科学家还是需要写代码。这就是现在的数据科学家所接受的教育,好不意外,他们就是这样做的。


有人认为,拖放系统无法提供代码可以提供的细粒度超参优化,这个认识是错误的。如果你使用过 SAS Enterprise Miner 或其竞争产品,那你知道这是错误的观点,事实上要进行调整是更容易的。


在我看来,回到过去只编写代码的时代是非常糟糕的,这可能导致新的从业者忽视基础内容,而仅仅掌握了另外一门编程语言。因此我非常欢迎并期待无代码在从业者之间的快速推进。

模型质量如何


我们通常会把模型准确度的提升视为深入分析的“胜利”。有人会认为,使用自动化无代码解决方案就会降低其中的准确度,这是不正确的。


AutoML 平台,比如 DataRobot、Tazi.aiOneClick.ai,以及其他很多平台不仅能够并行地运行数百种包括超参变体的模型,而且它们还执行转换、特征选择,甚至一些特征工程。所以你不可能在单纯的准确度上击败这些平台。


需要注意,特征工程的领域知识仍然是我们人类的优势。


可能更重要的是,当我们讨论第二或者是第三个数据点的准确度变化的时候,和 AutoML 平台仅仅几天甚至几小时的工作相比,你耗费的几周开发时间真的值得吗?

无代码更广泛的影响

我认为无代码最大的受益者其实是传统的数据分析师和 LOB 经理,他们最关注 BI 静态数据。单独的数据混合和准备平台对他们来说非常有帮助(对于 IT 人员来说,工作量也减轻许多)。


这些无代码准备平台,比如 ClearStory Data、Paxata 和 Trifacta,正在迅速地整合 ML 功能到它们的过程中,帮助用户选择适合混合的数据源,了解这些数据项的真正含义(在没有很好的数据字典查询功能情况下,了解更多信息,获得更需要的数据资源),甚至扩展到了特征工程和特征选择的领域。


现代化的数据准备平台使用嵌入式 ML,比如说智能自动清理或处理异常值。


刚被 Gartner 评选为“最酷的 5 家公司”之一的 Octopai,通过使用机器学习和模式分析确定不同数据元素的关系,创造数据的上下文环境以及数据的早先使用和转换,帮助用户自动快速地找到可信赖的数据。


这些平台还通过设置权限并保护 PID 和其他类似的敏感数据来实现安全的自助服务。


甚至数据可视化领先者 Tableau 也在使用 NLP 和其他 ML 工具开发会话分析功能,帮助用户使用英语提出问题,并返回最佳可视化结果。

这对数据科学家来说到底意味着什么

Gartner 相信,两年之内,到 2020 年,公民数据科学家将在数量和产生的深入分析价值上压倒数据科学家。他们预测,数据科学家会将重心转移到专门的问题上,并将企业级模型嵌入到应用程序中。


我不同意。这似乎把数据科学家归类到 QA 或者是实施人员中。这不是我们的使命。


我认为,由于小部分数据科学家可以处理更多的项目,这将帮助深入分析越来越多、越来越快地渗透到组织中去。


仅仅一两年时间,数据科学家最重要的技能就已经展现了出来,这包括混合和清理数据,给任务选择恰当的预测算法。这正是增强版 / 自动化无代码工具需要负责的领域。


需要创造、监视并管理成百上千个模型的公司是无代码最早的一批使用者,特别是在保险和金融服务领域。


还剩下什么?还有分析翻译的重要角色。这是 McKinsey 最近发现的任何数据科学方案中最重要的角色。简单来说,分析翻译的工作包括:


  1. 负责识别深入分析可能产生的不同机会。

  2. 推动优先处理这些机会的过程。

  3. 经常在项目中担任项目经理的角色。

  4. 积极地采纳跨企业解决方案,提高成本效益。


换句话来说,将业务问题转变成数据科学项目,将不同类型的风险和回报量化,帮助制定项目的优先级。

那 AI 呢?

是的,CNN 和 RNN 最近在图像、文字和语音等方面的进展都在快速推进自动化无代码解决方案。但速度并不是很快,因为缺少具备深度学习技能的数据科学家,甚至比全科医师还要少。


Microsoft 和 Google 去年都推出了自动化深度学习平台。一开始是处理迁移学习,而之后朝着完全 AutoDL 发展。感兴趣的读者可以了解下 Microsoft Custom Vision Services 和 Google 类似的入门级服务 Cloud AutoML。


还有一些初创公司整合了 AutoDL 平台。我们在今年早些时候分析了 OneClick.AI。它们包含了完全的 AutoML 和 AutoDL 平台。Gartner 最近评选拥有 AutoDL 平台的 DimensionalMechanics 为“最酷的 5 家公司”之一。


有一段时间,我尝试更新无代码 AutoML 和 AutoDL 的提供商名单以及它们提供的功能。但是这个列表更新得实在太快了。


我希望 Gartner 或其他有价值的团队能进行全面的审核,在 2017 年,Gartner 给出了一篇很长的报告“数据和分析领域在未来的增强分析”。这篇报道很好地概括了一些内容,但有很多我知道的提供商没有被提及。


据我了解,还没有一个完整的列表,列出所有提供完全自动化或相当数量的自动化功能的平台。这包括从 IBM 和 SAS 这样的大企业到一些很小的初创公司。


很多提到的内容都来自下面的文章列表。如果你正在以任何方式使用深入分析,或单纯地想让你的传统业务分析功能变得更好,请查看下面文章中提到的解决方案。

有关自动化机器学习、自动化深度学习和其他无代码解决方案的文章

What’s New in Data Prep(September 2018)


Democratizing Deep Learning – The Stanford Dawn Project(September 2018)


Transfer Learning –Deep Learning for Everyone(April 2018)


Automated Deep Learning – So Simple Anyone Can Do It(April 2018)


Next Generation Automated Machine Learning (AML)(April 2018)


More on Fully Automated Machine Learning(August 2017)


Automated Machine Learning for Professionals(July 2017)


Data Scientists Automated and Unemployed by 2025 - Update!(July 2017)


Data Scientists Automated and Unemployed by 2025!(April 2016)


作者介绍:


Bill Vorhies 是数据科学中心的主任编辑,从 2001 年开始就在数据科学领域实践。他的邮箱是:Bill@Data-Magnum.com 或 Bill@DataScienceCentral.com


原文链接:


https://www.datasciencecentral.com/profiles/blogs/practicing-no-code-data-science


2019-09-30 11:462139
用户头像

发布了 218 篇内容, 共 69.2 次阅读, 收获喜欢 76 次。

关注

评论

发布
暂无评论
发现更多内容

OpenHarmony开发者大会举办,OpenHarmony项目群授牌30家捐赠单位及个人

最新动态

带你掌握数仓的作业级监控TopSQL

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

户外led电子屏未来发展趋势

Dylan

技术 LED显示屏 户外LED显示屏

聊聊 CSS 隐藏元素的 10 种实用方法

茶无味的一天

CSS 隐藏元素

微服务 Spring Boot 整合Redis 实战开发解决高并发数据缓存

Bug终结者

redis缓存 三周年连更

玩转服务器之Docker篇:10分钟学会搭建 Docker 环境

京东科技开发者

云计算 容器 Docker 镜像 企业号 4 月 PK 榜

重新学习Java线程原语

码语者

Java 线程

如何在页面中监听“不存在”的 DOM 节点

茶无味的一天

JavaScript DOM web api 水印 MutationObserver

使用depay信用卡开通chatGPT付费API

石云升

AI ChatGPT 三周年连更

中国边缘云公有云服务市场 Top2,百度智能云让智算无处不在

百度开发者中心

云计算 #百度智能云# 边缘云

Gartner发布中国容器管理平台供应商识别指南,灵雀云实力入选

York

容器 云原生 系统架构 研究报告 平台选型

白盒的测试方法

测吧(北京)科技有限公司

测试

《一时重构一时爽,一直重构一直爽》

后台技术汇

代码重构 软件重构 三周年连更

熬夜肝到秃头!阿里顶配级Spring Security笔记

程序知音

Java spring 后端 spring security java架构

“亮相”欧洲!TDengine 在 KubeCon 与开发者探讨云原生与数据库的技术结合

TDengine

tdengine 时序数据库 KubeCON

Backgrounds——为所有人准备的mac动态壁纸,让桌面更生动

互联网搬砖工作者

迪斯克分投趣模式挖矿分红dapp系统开发功能详情

开发v-hkkf5566

今晚直播 | 思码逸陆春蕊:面对研发效能度量落地难点,如何让数据说话?

思码逸研发效能

研发效能

【重磅】针对小微企业信息安全,行云管家堡垒机隆重推出免费版

行云管家

云计算 企业上云 安全运维 运维安全

详解数据结构中栈的定义和操作

华为云开发者联盟

数据结构 开发 华为云 华为云开发者联盟 企业号 4 月 PK 榜

电子元器件“切开后”,原来是这样子的!

元器件秋姐

科普 三极管 元器件 二极管 电感

深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。

汀丶人工智能

人工智能 深度学习 学习率 warmup batchsize

企业级无代码平台,「重塑」软件生产关系

ToB行业头条

小技巧:如何让 Windows 应用程序在 Parallels Desktop 中启动得更快

互联网搬砖工作者

Qz学算法-数据结构篇(引入)

浅辄

数据结构 三周年连更

MySQL进阶之道,MySql性能实战源码+笔记+项目实战

程序知音

Java MySQL 数据库 后端

如何从1到99做好产品 | 得物技术

得物技术

从 Dev 和 Ops 视角出发,聊聊 DevSecOps 的 What / Why / How

极狐GitLab

DevOps 安全 DevSecOps 安全左移 安全合规

矢量图片转换工具:Vector Magic 免激活版

真大的脸盆

Mac Mac 软件 图片格式转换 图片格式

常用测试策略与测试手段

测吧(北京)科技有限公司

测试发开

数字化转型框架如何搭建?

优秀

数字化转型

数据科学正在进入“无代码”的新时代_文化 & 方法_Bill Vorhies_InfoQ精选文章