卷首语
作者:第四范式资深 AI 架构师 陈迪豪
机器学习毫无疑问是 2019 年最受关注的技术之一,无论是手机中每日收到的咨讯推荐,还是我们在银行系统中的信用评分,机器学习都已经应用到所有人生活中的方方面面。大数据的积累、计算能力的提升以及日渐成熟的算法,让机器学习成为企业向数字化、智能化方向转型的关键。然而,眼下并非所有企业都能像巨头公司一样,迅速积累经验实现业务与 AI 的无缝整合。若要跨过 AI 应用落地的门槛,真正让 AI 能在企业中应对复杂多变的业务应用,除了在算法上不断革新,打好地基之外,规范化的机器学习建模流程、面向 AI 的工程技术优化等环节更是将这项浩大工程由“做”转变为“做好”的关键所在。
机器学习闭环流程
人,之所以被称之为“智能体”,是因为人总是在不断的学习。在人类心理学研究史上,有一个著名的“库伯学习圈”理论,该理论认为人类学习的过程是由“行动、经验、反思、理论”这四个阶段构成的。简单来说,人们通过行动产生经验,再通过反思经验,学习、总结其中的规律,在新的行为发生时找到最优决策。人工智能的本质亦是如此。
关联到企业的 AI 平台中,标准的 AI 全流程则将以上的四个步骤转化为“行为数据采集、模型训练、模型应用、反馈数据采集”的过程。行为数据采集保证了机器学习模型有足够的特征作为输入,是训练有效模型的基础,模型应用则是收集反馈数据的前提,如果没有数据反馈及时更新模型,就无法体现机器学习模型自适应的能力以及实时性的模型效果。
作为架构师,需要考虑在机器学习平台中整合数据引入、数据管理甚至是数据标注系统,提供标准和统一的数据格式给模型训练使用,除了要能够支持主流的机器学习训练框架,模型上线后提供数据回流功能也很重要,对于实时性要求较高的模型提供参数 Fine-tune、模型更新等功能,才能帮助企业构建一站式的机器学习闭环流程。
软硬一体优化
随着模型应用越来越广,性能优化成为降低业务成本、提高模型效果的重要手段,借助 GPU、FPGA 等新硬件的软硬一体优化更成为业界的主流。以 GPU 为例,主流的 GPU 拥有超过 3000 个并行计算单元,无论是浮点运算能力还是计算并行度都比 CPU 有数百倍的提升,而定制化的 FPGA 在能耗上也有突出的优势。除了计算相关的硬件优化,RDMA 技术可以给机器学习模型训练带来更极致的网络吞吐和极低的延时,针对特定硬件的软件优化不仅提高了 AI 计算的性能,也实现了更低 TCO 的智能应用落地。
线下线上一致性
在传统的机器学习中,离线的特征计算与在线的预估服务往往是相互独立的两个阶段,而维护线下线上特征一致性成为保证模型业务效果的关键。离线的特征计算包括任意宽表的拼接或超大时间窗内的聚合等操作,甚至出现使用未来特征或者标签作为特征等穿越问题,这样会导致在线服务无法生成模型所需要的特征输入,离线效果好的模型更是无法上线。
从架构的角度,规范在线和离线特征生成过程非常重要,使用针对机器学习场景优化的特征计算引擎,可以避免线上线下重复实现冗余的计算逻辑,更是杜绝了期望特征在模型训练和在线预估时不一致的隐患。
这些只是实现 AI 规模化落地技术的冰山一角,身为架构师的我们,真正从企业应用 AI 的实际情况出发,解决其中的种种问题才是重中之重。
热点 | Hot
GitHub 有国界:全面封禁美国制裁地区开发者账户
企业纷纷效仿阿里建中台,到底是盲目跟风还是不做会死?
理论派 | Theory
腾讯全球最大金融级分布式 MySQL 集群实践
推荐文章 | Article
我是一名技术总监,被技术选型给埋坑里了
揭秘大牛程序员十二时辰:有人作息规律,有人全年无休
观点 | Opinion
独家专访 AI 大神贾扬清:我为什么选择加入阿里巴巴?
特别专栏 | Column
华为云智能边缘平台首席架构师解读 KubeEdge:云原生的边缘计算平台
微服务可靠性设计
评论 (2 条评论)