DBP研究所管理负责人 Prashanth Southekal 上月在2019年企业数据世界大会上举办了一个研讨会,主题是应用机器学习技术以及何时使用不同的 ML 算法。
机器学习(ML)使计算机能够使用大量数据集自动学习和适应。Southekal 谈到了五种主要的分析方法和三种机器学习方法。他还讨论了 ML 算法,如决策树、支持向量机(SVM)、逻辑回归、线性回归和聚类。
InfoQ 采访了 Southekal,了解他关于应用机器学习领域的会议环节和数据分析。
InfoQ:如何对数据进行分类,对每种类型的数据进行哪种分析?
Prashanth Southekal:广泛的数据,尤其是商业数据,主要可以分为三种类型。首先,从数据存储和处理的角度,可以将业务数据分为结构化数据和非结构化数据。其次,从数据集成的角度来看,业务数据可以是管理类别(如工厂和地理位置)的参考数据,管理业务实体(如供应商和产品)的主数据,以及捕获业务事件(如采购订单和发票)的事务数据。第三,从数据分析的角度来看,业务数据可以分为标定数据(用于管理类别,如产品描述)、有序数据(用于捕获有序数据集,如付款项和交付优先级)和连续数据(用于处理价格和数量)。
现在进入问题的第二部分——对每种类型的数据执行哪种类型的分析。在我看来,分析是基于你的问题使用数据。所以,你问的问题在分析学中非常重要。这些问题的答案来自于算法,算法的选择基于数据类型。例如,如果问题是“货物会按时交货吗?”,答案将会是“Yes/No”,答案将会使用 logistic 回归算法得到。另一方面,如果问题是“货物需要多长时间才能送到?”,答案将是一个数值,该数值可能会使用线性回归算法得到。
InfoQ:你能谈谈一些数据质量维度以及它们如何影响数据质量吗?
Southekal:数据质量是对数据在给定上下文中是否适合服务于其目的的评估。在我看来,有 12 个数据质量维度,包括完整性、一致性、有效性、基数性、准确性、正确性、可访问性、安全性、及时性、冗余、覆盖率和完整性。在我的书 Data for Business Performance 中,我详细解释了这些数据质量维度。然而,数据质量并不意味着所有这 12 个维度都应该一直满足。数据质量维度的选择取决于适用性、目的和上下文。
InfoQ:选择 ML 解决方案时需要考虑什么?
Southekal: 在我看来,如果一个解决方案满足四个关键条件,那么就可以认为它是 ML 解决方案:
输出是不断优化的,即数据持续不断地摄入到 ML 算法中。
在获取和应用输出时,很少(甚至没有)人为干预。
输出是概率的形式,因为解决方案是面向未来状态的。
输出主要提供关于事件或事务(实体或类别)的问题的答案。
InfoQ:你能谈一下你在研讨会中谈到的四种 ML 算法:回归、分类、聚类和关联吗?
Southekal:ML 算法有数百种,但我选择了这四种类型的 ML 算法,即回归、分类、聚类和关联,因为它们在业务中非常常用。
回归算法基于一组自变量预测因变量的值。
分类算法利用输入的数据对观测结果进行分类。
聚类算法根据一些相似的条件将一组观测值分配到聚簇中。
关联 ML 算法揭示了项之间是如何关联的。
InfoQ:对于想学习机器学习技术的数据库专业人士,您有什么建议吗?
Southekal:选择一项你和你的公司都能轻易获得的技术。例如,如果你是一个采购专家,在一家在SAP ERP中完成采购活动的公司工作,那么最好利用 SAP 的分析工具,如BI/BOBJ、Leonardo等。你将有一个良好的开端,因为分析所需的数据已经在你的 SAP 环境中,并且你可以访问 SAP 生态系统。如果你刚刚开始你的职业生涯,可以尝试R或Python,因为它们都是具有大型社区的开源工具。但是,要始终注重应用工具解决问题,而不是学习工具本身。除了在技术方面的技能,还要在统计和线性代数方面培养良好的技能。描述性分析需要统计,而预测分析和 ML 需要线性代数和统计。网上有许多免费的优质资料。在选择昂贵的课程之前,可以先尝试一下它们。
查看英文原文:Prashanth Southekal on Applied Machine Learning
评论