本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。
本期Robin.ly CVPR2019 专题访谈特邀 Wormpex AI Research 副总裁兼首席科学家华刚博士,在美国长滩 CVPR 大会现场分享他对计算机视觉领域的进展和挑战的思考,以及人工智能在零售业应用前景的展望。
Wormpex AI Research 是中国最大的便利连锁店“便利蜂”的研究分支。加入 Wormpex 之前,华刚曾担任微软计算机视觉科学主任以及史蒂文斯理工学院副教授。他同时也是 IEEE Fellow,IAPR Fellow 和 ACM 杰出科学家。他的研究领域包括计算机视觉、模式识别、机器学习和机器人技术等。华刚在本次 CVPR 担任大会 Program Chair.
下文为 Robin.ly 主持人 Margaret Laffan 与华刚博士的访谈实录。
计算机视觉的研究进展
主持人:我知道你是一位非常有成就的计算机视觉科学家,也是此次 CVPR 大会的 Program Chair。能不能跟我们分享一下计算机视觉研究领域最近几年的进展?
华刚:
你过奖了,是计算机视觉这个社区给我提供了良好的职业发展机会。如果我们回顾过去几年的研究进展,最大的收获就是深度学习在计算机视觉领域得到了长足发展。我们正在利用深度学习和数据的力量来解决各种各样问题,但我们也不应该忽略将物理建模和统计学习相结合、和深度学习方法相结合,这样我们才能取得更多的研究进展。
图片来源:微软研究院(亚洲区)
主持人:作为大会的 Program Chair, 你们是如何选拔出优秀的学者来 CVPR 做学术报告的?
华刚:
CVPR 社区高水平研究和学术声誉在很大程度上得益于我们完善、客观、严格的评审过程。我们的专业评审主席和审稿人会为投稿者提供建设性的反馈。我们从高质量的投稿中选择了质量最高的一些论文,并邀请作者来参加为期五天的会议。
深度学习的影响
主持人:你曾在微软从事基于深度学习的视觉理解(Vision Understanding),面部识别(Facial recognition)和视觉生成 (Vision creation)这三个方面的工作。能讲一讲深度学习在这些领域有哪些突破和挑战吗?
华刚:
我认为过去这三个方面确实取得了非常大的进步。首先说一下视觉理解。我们正在努力尝试理解视频中的场景。这个研究领域的进展得益于计算机视觉中的很多其他技术,例如物体识别、人体识别、情感分析等等。我们需要将潜在的几种计算机视觉技术结合在一起,全面的了解动作事件。所以这个领域的发展是得益于一些基础性技术的进步。
面部识别结合了数据和深度学习,深度网络等精准模型,这些模型的快速发展使商业化成为可能。从 20 世纪 90 年代早期开始,人们就在着手打造面部识别的标准,那段时间实际上是美国政府推动了事情发展。
在视觉生成方面,人们使用了一系列深度学习方法,称为深度生成模型(Deep Generative Models)。生成模型在计算机视觉领域并不算一个新的领域,2000 年左右就有很多基于传统统计模型的这方面的工作,实际上有很多研究工作的目的就是为视觉内容创作打造模型。深度生成模型能够高效的拟合任何类型的数据分布,于是迅速受到了广大研究人员的青睐。我们正在努力让艺术创作的过程对用户更友好。
主持人:那么关于人工智能的未来,你觉得我们可以从神经科学研究中学到什么?不同的领域又是如何相互借鉴的?
华刚:
这个问题问得很好。虽然深度学习也是间接受到了生物学研究的启发,但是目前的成果离实现人类大脑系统的功能还很远。其实如果看看不同领域相互借鉴的情况,是可以找到很多证据的。甚至在 30 年前,人们就验证了卷积网络的最初始几层学习到的就是是大脑视觉系统中最初几层的 Gabor 滤波器的作用。
但就协同性而言,我们正在从宏观层面分析神经科学对人工智能研究的引导作用。例如,意识是一种思维过程,只属于人类和某些类型的动物。人们对意识如何在大脑中发挥作用有了越来越深入的了解。是否能打造一台有意识的机器是一个很重要的问题。但目前我们还做不到。但是人们在这方面已经取得了一些进展,了解到有意识的思考过程是如何发生的,并可以基于相关结论尝试构建具有逻辑结构的计算模型。在打造通用人工智能的过程中,我们也许能看到人工智能系统真正掌握了人类的智慧。我希望看到神经科学的研究结果能够更多的指导我们在人工智能方面的研究,我们还有很长的路要走。
主持人:能给出一个具体的时间点吗?
华刚:
很难说,可能要五十年以后,也可能更早。打造有意识的机器是个非常大的挑战,不过能够看到这两个领域的研究人员进行更多的对话,就是一个巨大的进步。
商业化应用
主持人:基于我们已经取得的进展,你最看好哪种类型的商业化应用场景?
华刚:
这是个很好的问题。过去的 30 年,人们一直在讨论如何打造计算机视觉领域的杀手级应用 (Killer Application)。这项技术在各个领域应用非常广泛,比如军事方面,计算机视觉的强大之处不言而喻。不过最让我兴奋的是看到计算机视觉正在将物理世界数字化。在互联网社会中,一切都是数字化的。但是很多在物理世界发生的活动,比如线下的会议或者销售过程中顾客与产品的互动,都没有数字化。所以随着技术的进步,我认为计算机视觉可以在数字化物理环境的过程中发挥核心作用,这样我们就可以做出更好的智能决策,改善我们的生活质量。这算是我的一个愿景吧。
转移学习和主动学习
主持人:我们来谈谈自动驾驶,这是计算机视觉一个最重要的应用。Waymo 的工程部主任 Sacha Arnoud 曾经说过:当你完成了 90%的工作,还有 90%的工作要做。也就是说余下 90%的工作需要花费 10 倍的时间。那么除了深度学习之外,还有什么新的方法能解决这些问题吗?
华刚:
这个问题很难回答。我记得 Jitendra Malik 教授在 2005 年的 CVPR 大会上说过:在计算机视觉领域,90%的问题很容易解决。因此,研究人员确实应该着重研究其余 10%的问题。虽然当今我们高度依赖机器学习来解决许多计算机视觉问题,但对于这 10%的问题,我认为我们需要以非常系统的方式处理它们。这些问题的共同点在于它们都属于极端情况,有时候你可能只是没有足够的数据来训练你的系统。我们需要利用已有的知识来识别和理解这些极端情况。这种学习模模式叫做“转移学习(transfer learning)”,将知识从一个任务转移到另一个任务。
参考人类的学习方式,我们是从语言对话中学习,比如我们两个人在这里进行了愉快的交谈,我们可以相互学习。但对于机器学习而言,我们还不知道如何让它能通过语言来学习。如果我们的机器学习模型就能够理解有效的理解对话了,可能说明我们在朝正确的方向努力,但是要做好打一场持久战的心理准备,我们需要能够解决其余 10%问题的正确工具。
主持人:除了转移学习,能再解释一下主动学习(Active Learning)这个概念吗?
华刚:
主动学习是一个笼统的概念,实际上是指机器以积极的方式参与学习过程,并不指代任何特定的学习方法。这意味着机器知道自己在什么方面做得还不够好。所以它要么主动要求人类提供更多的输入,要么利用庞大的知识库中自己找出解决方案。这是主动学习的要点,它会使学习更有效率。我认为这就是真正的学习。
利用当前的机器学习模式,我们通常会提供大量数据,机器会将这些数据输入到模型中。在运行了一些测试后,你就会发现它在一些极端情况下得不出好的结果,但模型本身也意识到了自己的结果是错误的,甚至会提供一个比较低的置信值。因此,进行主动学习意味着我们需要构建模型,这些模型能够意识到哪个部分的结果不理想,然后将学习重点放在这些方面,进一步改进。
人工智能与零售业
主持人:你最近加入了零售初创公司 Wormpex (便利蜂)担任副总裁兼首席科学家,能给我们介绍一下 Wormpex 吗?你们的职责和企业愿景是什么?你对自己在零售界的职业发展有什么展望?
华刚:
Wormpex AI Research 是中国最大的一个连锁便利店“便利蜂”的研究分支机构。建立这个研究院是希望通过人工智能技术将整个便利店连锁操作系统的运行过程数字化。便利店的业务比较传统,但是利用当今的技术,我们也许能够将从店面到仓库再到制造的各个操作阶段数字化,这样就可以拥有端到端的数字决策系统,并使用这些智能决策反过来影响物理操作。这样一来我们不但可以提高效率,还可以节省大量成本,从而进一步提升利润率。这就是我们研究所的工作重点。
在研究所成立之初,我们就定下了三个目标。第一个目标是我们希望以业务为中心来推动我们的技术研发决策,同时也希望所开发的技术能够有效的改善业务运营。第二个目标是我们希望打造最先进的技术,通过比较高的标准和要求在技术领域找到自己的一席之地。第三就是我们想要探索不同的应用场景以确保技术的可持续性。这就意味着我们有一定的自由来进行一些探索性的研究,推进技术的更新迭代。
智能便利店 (图片来源:便利蜂)
主持人:那么从一个消费者的角度来看,如果我两年后走进你的便利店,会看到什么样的景象?
华刚:
我想对于客户来说最好的人工智能技术就是,当你进入我们的商店时,会马上看到中意的产品,甚至不会意识到这是我们有意安排的。这跟 Amazon Go 不同的地方在于,Amazon Go 只是简化了结账流程,而我们是要了解每一个客户,了解他们的购物习惯和喜好,打造定制化的购物体验。
原文链接:
https://www.robinly.info/post/cvpr-2019-ai-talk-gang-hua-vp-chief-scientist-wormpex-ai-research
评论