QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

问答 Datameer 公司 Andrew Brust:大数据在人工智能技术中扮演的角色

  • 2017-08-06
  • 本文字数:1785 字

    阅读完需:约 6 分钟

Datameer 最近发布的 SmartAI 可将大数据与机器学习模型结合在一起提供更深入的数据见解。

SmartAI 意在通过大数据实现人工智能,例如针对大规模的大数据运行人工智能算法,帮助企业中的分析师将人工智能模型融入分析工作流程,以安全合规的方式完成自己的工作。

InfoQ 与 Datameer 公司市场战略和智能部门资深总监 Andrew Brust 一起探讨了大数据在人工智能领域,尤其是 SmartAI 中所扮演的角色。

InfoQ:Datameer 原本一直在大数据领域耕耘,为何如今转战人工智能?大数据过时了吗?

Andrew Brust:Datameer 在大数据领域依然十分专注。实际上,SmartAI 的目的就在于将人工智能与大数据分析工作流程相互融合。对大部分企业来说,面对人工智能技术,最大的障碍依然在于大数据、商业智能,以及其他分析工具和技术之间严重的隔阂。我们希望通过 SmartAI 解决这个问题,将人工智能带入主流分析工作,驾驭人工智能的强大威力。

InfoQ:您觉得大数据和人工智能间的关系是怎样的?SmartAI 如何发挥该特性?

Brust:大数据和人工智能之间有着极强的协同增效关系,然而这个特点尚未得到业界的足够重视。对于 SmartAI,Datameer 意在将两个世界彻底打通。使用机器学习模型对数据计分,原本这主要是一种即席(Ad Hoc)的过程,大部分时候是在数据科学家的工作站上进行的。但计分操作其实也可以针对规模更大的大数据平台,以自动化的方式在 Hadoop 集群的所有节点上进行。这恰恰是我们目前的努力目标。

InfoQ:机器学习需要进行大量的数据准备和操作过程,从广义上来看,这是否可以发挥 Hadoop 的优势,尤其是,能否发挥贵公司的优势?

Brust:没错,数据准备也是我们的重要方向之一,同时也是大数据技术以及人工智能技术的重要一环。如果要实现人工智能,必须首先选择一种算法并训练模型。训练模型所用的数据必须足够“干净”,通过筛选仅包含最基本的输入(特征)列,并在恰当层面上进行汇总。数据的准备过程必须完成上述所有操作。因此也需要针对原始数据中所呈现的值进行复杂计算,得到基于列的数据。Datameer 可以使用 Hadoop 做到所有这一切,并且效果很不错。因此在我们的产品中增加人工智能的相关能力就成了一种很自然的做法。

InfoQ:您所说的人工智能的“运维化”是指什么?能否从广义上,以及 SmartAI 的角度深入介绍一下相关技术细节?

Brust:正如之前所说,原本,数据计分操作是一种纯手工,量身定制的过程,需要由数据科学家在自己的工作站上进行。这一过程的输出结果对业务非常有用。然而这种方式并未在企业中形成标准,更多的只是一种手工点击按钮运行某些重要计算过程的做法。

计分过程需要自动化,需要管理,需要监视,需要在更大尺度下运行。此外还需要实现运维化。至今我们依然没有做到这一切,听起来似乎有些荒谬,但大部分情况下实际情况确实如此。通过使用 SmartAI,计分操作可以实现运维化,该产品可集成在与近年来流行的大数据分析技术相同的数据流程引擎和管理平台中。

这种方式塑造了一些全新用例,例如每天或每小时针对大数据运行流失分析模型,同时还可以完全遵守针对此类分析所设立的各种合规策略。

InfoQ:在深度学习的范围内,SmartAI 能否同时解决训练和推断有关的问题?还是主要解决了与分析有关的问题?

Brust:Datameer 并不涉及实际的训练过程,数据科学家依然需要使用自己惯用的开发环境、语言、工具,和 / 或命令行接口训练自己的模型。

模型训练完成后,即可导入 Datameer 并且可供调用,我们的库中还额外提供了超过 270 种电子表格函数。借此即可将人工智能嵌入到安全、受管控、可调度的数据流程中,将本就很强大的分析能力与人工智能结合在一起,发挥出更大威力。

InfoQ:最后,为何要选择 TensorFlow?该产品的未来规划中是否考虑过解决人工智能领域的其他问题?

Brust:目前 TensorFlow 很流行,很受关注,整个生态的发展非常良好,因此我们也选择了这个技术。人工智能领域的创新速度很快,我们都知道还有其他很多开源的深度学习框架,其中每一个都有可能迎来更大的发展势头。因此我们会密切关注整个行业,及时掌握最新变化,我们针对 TensorFlow 所采取的结构化的方法也可以用于其他库,不过目前来说,对于将 SmartAI 以及 TensorFlow 集成在 Datameer 产品中的决定,我们觉得是非常妥善的。

Datameer SmartAI 很快即将发布技术预览版。

阅读英文原文 Q&A with Andrew Brust of Datameer Regarding Big Data’s Role in AI

2017-08-06 19:001504
用户头像

发布了 283 篇内容, 共 111.9 次阅读, 收获喜欢 62 次。

关注

评论

发布
暂无评论
发现更多内容

用户密码验证函数

周冬辉

加密

Week11总结

熊威

Week 11 作业

鱼_XueTr

架构师训练营第 0 期第 11 周作业

无名氏

java安全编码指南之:拒绝Denial of Service

程序那些事

Java 安全编码指南 java安全编码 DOS攻击 zip炸弹

Week11作业1

熊威

架构师训练营 Week 11 总结

Wancho

系统稳定高可用的方案以及用户密码验证函数

Acker飏

极客大学架构师训练营 0 期 week 11 学习笔记

chun1123

安全 高可用系统的架构

Flink算子状态-9

小知识点

scala 大数据 flink

极客大学架构师训练营 0 期 week 11 作业

chun1123

高可用 密码校验

架构师训练营 第十一周 总结

CR

系统不可用的原因和解决方案

极客李

架构师训练营 - 第 11 周作业

Jam

用户密码验证函数

任小龙

第十一周学习总结

菲尼克斯

云上度假村木莲庄酒店助你远离城市的喧嚣

InfoQ_967a83c6d0d7

架构师训练营第十一周作业

子豪sirius

架构师训练营 Week 11 作业

Wancho

极客时间架构师训练营 - week11 - 作业 2

jjn0703

极客大学架构师训练营

架构师训练营 第十一周 作业

CR

Apache Pulsar 社区周报:08-15 ~ 08-21

Apache Pulsar

云原生 Apache Pulsar 消息系统 消息中间件

Newbe.Claptrap 框架入门,第四步 —— 利用 Minion,商品下单

newbe36524

云计算 微服务 dock .net core ASP.NET Core

漫画解读:唐僧师徒如何帮助大唐官网打造CDN+OSS完美架构?

阿里云Edge Plus

etcd的高可用

李小匪

Week 11命题作业

Jeremy

【华为云数据库技术大公开】机房失火后,还能拯救你的数据吗?

华为云开发者联盟

数据库 机房 华为云 数据存储 云数据库

安全架构和高可用系统的架构

周冬辉

高可用系统的架构

高可用的系统架构

莫莫大人

极客大学架构师训练营

【高并发】高并发秒杀系统架构解密,不是所有的秒杀都是秒杀!

冰河

高并发 分布式限流 秒杀系统 异步削峰 签约计划第二季

第十一周命题作业

菲尼克斯

问答Datameer公司Andrew Brust:大数据在人工智能技术中扮演的角色_大数据_Rags Srinivas_InfoQ精选文章