今年San Francisco 的QCon 大会上有一个“人工智能的未来”圆桌讨论组,在这里探讨了现如今机器学习所面临的各种问题。其中主要探讨了五个不同的领域:现如今人工智能所面临的关键性问题;技术如何改变了人们的招聘方式;非行业领先的边缘公司该如何充分利用目前的技术;人类在人工智能中扮演的角色是什么;以及目前令人感到兴奋的新突破有哪些。
这个小组是由Shubha Nabar 主持的,Shubha Nabar 是Salesforce Einstein 的高级主管。该小组的成员有:Melanie Warrick,他是ML 以及Google Cloud 的高级开发人员大使;Chris Moody,他是Stitch Fix 的AI 应用团队的经理;Miju Han,他是GitHub 的产品总监;Kevin Moore,他是Salesforce Einstein 高级数据科学家;以及Reena Philip,他是Facebook 的技术经理。
AI 面临的关键性问题
对于 Warrick 来说,他所面临的一个主要问题是在建立模型时消除数据偏差,因为这种数据上的偏差影响了基于这些模型所构建的产品和服务。
有几个小组的成员担心人工智能会被过分地炒作。Moody 说,对于绝大多数的公司来说,现如今的经典机器学习技术已经足够好了。他引用了两篇发布于 Stich Fix 博客的两篇博文。
Han 谈到了那些认为自动编码明天就能实现的投资者与现实之间的脱节。然而现实的情况是,自动编码可能在未来很长的一段时间里都不会完成。还有一处脱节是,机器学习社区与那些支持机器学习的开发者之间的脱节。当谈到该如何结构化数据、数据背后的标准是什么、以及获取高质量数据的难度,尤其是涉及到安全使用用例(这也是 GitHub 所关注的)的时候,这种脱节尤为明显。
Moore 重点指出了对于那些不熟悉机器学习的人来说,一个模型所传达的是一个极具挑战性的问题,但是他们必须要使用模型产生的结果。这个问题产生的部分结果就是,会让大家相信算法中是不存在偏差的。
他还评论了对于数据科学民主化的讽刺(irony of the democratization of data science),它使得恶意的参与者更容易使用机器学习来做假的声音或者传播错误的信息。他想知道机器学习是否可以被用来对抗机器学习。
深度学习 vs 传统机器学习
深度学习是如何改变公司解决问题的方法的呢?深度学习又是怎样改变了前沿公司招聘方式的呢?
Moody 指出,Stich Fix 公司的大部分价值并不是来自于深度学习。大部分的知识来源于对领域和简单事物的仔细理解。深度学习已经被使用在其他领域,例如,以任意的约束(例如单向通道)找到将项目组合在一起的最短路径,这与旅行商问题是不同的。
据 Warrick 的说法,Python 已经成为了主要的技术堆栈,大多数工具都是在这个平台上构建的。她还表示,“数据科学博士”、“新兵训练营”和“传统开发人员”已经开始融合。
Stich Fix 具有不同的文化。工程师们不用去写 ETL【译注 1】。只有数据科学家们才去将其构建、部署至产品并且去做模型分析。工程师们只需要去构建数据科学家们所需要的积木就可以了,例如,AB 测试模块、产品模型监控以及部署过程。数据科学家必须能够从端到端运行所有东西,这意味着他们倾向于使用更简单的可维护模型。深度学习并没有改变这个流程。
据 Warrick 所说,谷歌在所有产品中都应用了深度学习和机器学习。图像分析、机器学习以及搜索都深受深度学习的影响。强化学习(Deep Mind)已经被用于降低数据中心冷却,并达到了 40% 的效果。
Philip 说,两年前机器学习在 Facebook 并没有那么普及。现在,团队有数据科学家,他们着眼于从数据中提取有价值的信息,团队中还有机器学习工程师,他们专注于构建相关的模型。Facebook 还对机器学习做了基础研究。Shubha Nabar 认为,深度学习有助于系统稳定,因为它可以让你使用任意的数据来代替过去必须构建的各种不同的系统。
机器学习与企业
那些没有从事最前沿工作的企业和小公司们该如何应对当前对机器学习的炒作呢?
Moore 指出,小公司不太可能拥有数据科学家员工。但是,他们也有明确的问题需要被解决,他们也希望能够拥有更有效率的业务实践,他们也有想要做的预测问题。他们所面临的问题是,并不是所有的数据都在同一个地方,并且这些数据的质量可能并不高。他们要么去聘请外部咨询公司,要么就是去使用 Google、Amazon、Microsoft 以及 Salesforce 这些公司所提供的产品。你选择哪个供应商产品通常由你存储数据的位置决定。一般情况下,你需要选择与你的业务最匹配的供应商产品。小公司仍然需要数据跟踪,尽管他们觉得可能并不需要。在训练一个机器学习算法时,这些数据就会被证明是有用的。
Shubha Nabar 建议说,这些公司应该利用一切可以利用的东西。
据 Han 所说,在 GitHub,他们在处理某些事情上很老练,但是在有些方面就不是。他们对数据将如何改变软件开发过程感兴趣,但他们必须与投资者的炒作作斗争。投资者相信,在不久之后,项目将通过自主编程来编写。Han 坦言,这种情况可能在有生之前都看不到。另一方面,如果你在招聘过程中告诉开发人员这是投资者所期望的,那么这些来应聘的人就会去别处工作。
第一步是对已经编写好的代码进行建议和优化。GitHub 最大的优势是,它可能坐拥世界上最大的软件数据集。困难在于,数据科学家需要花费时间才能学会如何使用代码和持续集成日志来做数据科学。他们并不能直接上手做深度学习。
他们将从将从机器学习团队所建立的模型开始,侦测潜在的安全问题。另外可以做的就是验证代码在语义上是否是正确的、提出关于性能的建议或者通过分析依赖关系来确定如果你修改了一行代码会产生哪些改变。对于机器学习管理这一新的领域正在蓬勃发展,它需要把更好的工具集成到工作流中,让人们可以部署机器学习模型、进行试验、进行操作并且进行协作。
人类的参与以及模型的构建
Warrick 认为,人类必须成为机器学习过程的一部分。团队需要各种想法、观点、思考问题的方法,用以避免偏差。你必须搞清楚数据和所解决的问题类型,以及模型中缺少的内容。
Moody 解释说,在 Stich Fix,这些模型是为了告诉设计师客户的体型和客户的喜好。模型不是用来打分的,也不是用于另一个模型的。我们需要的是构建一个可理解的模型,设计师可以使用模型产生的结果来确定客户的需求,取代设计师并不是 Stich Fix 的目标。
Han 表示说,GitHub 需要人类在机器学习中进行循环,因为这个过程需要人类对这些模型进行审查。例如,审查者需要查看这个过程是不是有恶意的参与者出现。现在的问题是,没人愿意去当这个审查者。
Moore 认为,人类需要在这个过程中去识别有没有产生根本性的错误。此外,从数据中去推断业务实践是一项很困难的任务。在这个过程中,你可能一直都需要人类的参与,至少要进行监督,要进行验证,看看这些模型是否产生了有价值的东西。
Facebook 面临的一个问题是,不同的团队需要从不同的角度来对待数据,并且根据他们各自的需求来标记数据。当另一个组需要使用到该组的数据时就会产生问题。Philip 谈到他们正在寻找将数据注释集中在文本、音频和视觉内容上的方法。
新突破
最后,小组成员对可能出现的新进展给出了自己的想法。
Moody 认为,贝叶斯和深度学习技术的融合将使模型中不确定性和变异的整合成为可能。Warrick 说,强化学习和生成算法能够使人解决未知的问题。Philip 对视频、音频和文本的联合模型感到期待,因为目前在该领域还没有用以识别暴力的元数据存在。她还希望大学和私营企业能够在一起合作,共享更多有标签的数据集,这样就可以进行更多的共享研究,并能更快地推进艺术的发展。Moore 指出,强化学习可以使不具备任何关于游戏的知识的模型进行某一类游戏的学习( AlphaGo Zero )。
译注 1:ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL 一词较常用在数据仓库,但其对象并不限于数据仓库。
查看英文原文: Panel on the Future of AI
评论