写点什么

Prashanth Southekal 谈应用机器学习,如何分析各类数据

  • 2019-04-22
  • 本文字数:1578 字

    阅读完需:约 5 分钟

Prashanth Southekal谈应用机器学习,如何分析各类数据

DBP研究所管理负责人 Prashanth Southekal 上月在2019年企业数据世界大会上举办了一个研讨会,主题是应用机器学习技术以及何时使用不同的 ML 算法。


机器学习(ML)使计算机能够使用大量数据集自动学习和适应。Southekal 谈到了五种主要的分析方法和三种机器学习方法。他还讨论了 ML 算法,如决策树、支持向量机(SVM)、逻辑回归线性回归聚类


InfoQ 采访了 Southekal,了解他关于应用机器学习领域的会议环节和数据分析。


InfoQ:如何对数据进行分类,对每种类型的数据进行哪种分析?


Prashanth Southekal:广泛的数据,尤其是商业数据,主要可以分为三种类型。首先,从数据存储和处理的角度,可以将业务数据分为结构化数据和非结构化数据。其次,从数据集成的角度来看,业务数据可以是管理类别(如工厂和地理位置)的参考数据,管理业务实体(如供应商和产品)的主数据,以及捕获业务事件(如采购订单和发票)的事务数据。第三,从数据分析的角度来看,业务数据可以分为标定数据(用于管理类别,如产品描述)、有序数据(用于捕获有序数据集,如付款项和交付优先级)和连续数据(用于处理价格和数量)。

现在进入问题的第二部分——对每种类型的数据执行哪种类型的分析。在我看来,分析是基于你的问题使用数据。所以,你问的问题在分析学中非常重要。这些问题的答案来自于算法,算法的选择基于数据类型。例如,如果问题是“货物会按时交货吗?”,答案将会是“Yes/No”,答案将会使用 logistic 回归算法得到。另一方面,如果问题是“货物需要多长时间才能送到?”,答案将是一个数值,该数值可能会使用线性回归算法得到。


InfoQ:你能谈谈一些数据质量维度以及它们如何影响数据质量吗?


Southekal:数据质量是对数据在给定上下文中是否适合服务于其目的的评估。在我看来,有 12 个数据质量维度,包括完整性、一致性、有效性、基数性、准确性、正确性、可访问性、安全性、及时性、冗余、覆盖率和完整性。在我的书 Data for Business Performance 中,我详细解释了这些数据质量维度。然而,数据质量并不意味着所有这 12 个维度都应该一直满足。数据质量维度的选择取决于适用性、目的和上下文。


InfoQ:选择 ML 解决方案时需要考虑什么?


Southekal: 在我看来,如果一个解决方案满足四个关键条件,那么就可以认为它是 ML 解决方案:

输出是不断优化的,即数据持续不断地摄入到 ML 算法中。

在获取和应用输出时,很少(甚至没有)人为干预

输出是概率的形式,因为解决方案是面向未来状态的。

输出主要提供关于事件事务(实体或类别)的问题的答案。


InfoQ:你能谈一下你在研讨会中谈到的四种 ML 算法:回归、分类、聚类和关联吗?


Southekal:ML 算法有数百种,但我选择了这四种类型的 ML 算法,即回归、分类、聚类和关联,因为它们在业务中非常常用。

回归算法基于一组自变量预测因变量的值。


分类算法利用输入的数据对观测结果进行分类。


聚类算法根据一些相似的条件将一组观测值分配到聚簇中。


关联 ML 算法揭示了项之间是如何关联的。


InfoQ:对于想学习机器学习技术的数据库专业人士,您有什么建议吗?


Southekal:选择一项你和你的公司都能轻易获得的技术。例如,如果你是一个采购专家,在一家在SAP ERP中完成采购活动的公司工作,那么最好利用 SAP 的分析工具,如BI/BOBJLeonardo等。你将有一个良好的开端,因为分析所需的数据已经在你的 SAP 环境中,并且你可以访问 SAP 生态系统。如果你刚刚开始你的职业生涯,可以尝试RPython,因为它们都是具有大型社区的开源工具。但是,要始终注重应用工具解决问题,而不是学习工具本身。除了在技术方面的技能,还要在统计和线性代数方面培养良好的技能。描述性分析需要统计,而预测分析和 ML 需要线性代数和统计。网上有许多免费的优质资料。在选择昂贵的课程之前,可以先尝试一下它们。


查看英文原文Prashanth Southekal on Applied Machine Learning


2019-04-22 08:003770
用户头像

发布了 592 篇内容, 共 292.2 次阅读, 收获喜欢 1378 次。

关注

评论

发布
暂无评论
发现更多内容

极客时间 - 架构训练营 第一周总结 - 设计原则

极客时间架构 1 期:第 6 周 技术选型(二) - 命题作业

Null

架构师训练营第六周作业

四夕晖

2020.10.26-2020.11.01 学习总结

icydolphin

极客大学架构师训练营

【第六周】课后作业

云龙

Week2 框架设计

贺志鹏

极客大学架构师训练营

架构师训练营第六周作业

月殇

极客大学架构师训练营

架构师训练营第二期 Week 2 作业

bigxiang

极客大学架构师训练营

week06作业

起风了

架构师一期

CAP原理简述及应用

博古通今小虾米

CAP

第六周作业

wanlinwang

极客大学架构师训练营

LeetCode题解:90. 子集 II,回溯+哈希表去重,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

周练习 6

何毅曦

架构一期第六周作业

Airs

week2-作业1

Mr_No爱学习

技术选型二第六周作业「架构师训练营第 1 期」

天天向善

第六周作业

Geek_ce484f

极客大学架构师训练营

极客时间架构 1 期:第6周 技术选型(二) - 学习总结

Null

打工人必会算法—快速幂算法讲解

bigsai

2周 总结

水浴清风

Week_06 总结+作业

golangboy

极客大学架构师训练营

架构师训练营第 1 期 -Week6 - 课后练习

鲁小鲁

极客大学架构师训练营

week2-作业

Mr_No爱学习

第六周作业2

Yangjing

极客大学架构师训练营

架构师 01 期,第六周课后作业

子文

思考 - 从传统雪崩到K8S

东风微鸣

k8s

架构师训练营第六周课程笔记及心得

Airs

架构师训练营 Week6 - 课后作业

极客大学架构师训练营

第六周作业总结

Geek_ce484f

极客大学架构师训练营

架构师训练营 Week6 - 技术选型 - 分布式数据库,NoSQL,Zookeeper,搜索引擎

极客大学架构师训练营

架构师训练营第 2 期 第二周作业 1

月下独酌

Prashanth Southekal谈应用机器学习,如何分析各类数据_AI_Srini Penchikala_InfoQ精选文章