速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

专访 Wormpex AI Research 副总裁华刚博士

  • 2019-07-10
  • 本文字数:3694 字

    阅读完需:约 12 分钟

专访 Wormpex AI Research 副总裁华刚博士

本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。


本期Robin.ly CVPR2019 专题访谈特邀 Wormpex AI Research 副总裁兼首席科学家华刚博士,在美国长滩 CVPR 大会现场分享他对计算机视觉领域的进展和挑战的思考,以及人工智能在零售业应用前景的展望。


Wormpex AI Research 是中国最大的便利连锁店“便利蜂”的研究分支。加入 Wormpex 之前,华刚曾担任微软计算机视觉科学主任以及史蒂文斯理工学院副教授。他同时也是 IEEE Fellow,IAPR Fellow 和 ACM 杰出科学家。他的研究领域包括计算机视觉、模式识别、机器学习和机器人技术等。华刚在本次 CVPR 担任大会 Program Chair.


下文为 Robin.ly 主持人 Margaret Laffan 与华刚博士的访谈实录。

计算机视觉的研究进展

主持人:我知道你是一位非常有成就的计算机视觉科学家,也是此次 CVPR 大会的 Program Chair。能不能跟我们分享一下计算机视觉研究领域最近几年的进展?


华刚:


你过奖了,是计算机视觉这个社区给我提供了良好的职业发展机会。如果我们回顾过去几年的研究进展,最大的收获就是深度学习在计算机视觉领域得到了长足发展。我们正在利用深度学习和数据的力量来解决各种各样问题,但我们也不应该忽略将物理建模和统计学习相结合、和深度学习方法相结合,这样我们才能取得更多的研究进展。



图片来源:微软研究院(亚洲区)


主持人:作为大会的 Program Chair, 你们是如何选拔出优秀的学者来 CVPR 做学术报告的?


华刚:


CVPR 社区高水平研究和学术声誉在很大程度上得益于我们完善、客观、严格的评审过程。我们的专业评审主席和审稿人会为投稿者提供建设性的反馈。我们从高质量的投稿中选择了质量最高的一些论文,并邀请作者来参加为期五天的会议。

深度学习的影响

主持人:你曾在微软从事基于深度学习的视觉理解(Vision Understanding),面部识别(Facial recognition)和视觉生成 (Vision creation)这三个方面的工作。能讲一讲深度学习在这些领域有哪些突破和挑战吗?


华刚:


我认为过去这三个方面确实取得了非常大的进步。首先说一下视觉理解。我们正在努力尝试理解视频中的场景。这个研究领域的进展得益于计算机视觉中的很多其他技术,例如物体识别、人体识别、情感分析等等。我们需要将潜在的几种计算机视觉技术结合在一起,全面的了解动作事件。所以这个领域的发展是得益于一些基础性技术的进步。


面部识别结合了数据和深度学习,深度网络等精准模型,这些模型的快速发展使商业化成为可能。从 20 世纪 90 年代早期开始,人们就在着手打造面部识别的标准,那段时间实际上是美国政府推动了事情发展。


在视觉生成方面,人们使用了一系列深度学习方法,称为深度生成模型(Deep Generative Models)。生成模型在计算机视觉领域并不算一个新的领域,2000 年左右就有很多基于传统统计模型的这方面的工作,实际上有很多研究工作的目的就是为视觉内容创作打造模型。深度生成模型能够高效的拟合任何类型的数据分布,于是迅速受到了广大研究人员的青睐。我们正在努力让艺术创作的过程对用户更友好。


主持人:那么关于人工智能的未来,你觉得我们可以从神经科学研究中学到什么?不同的领域又是如何相互借鉴的?


华刚:


这个问题问得很好。虽然深度学习也是间接受到了生物学研究的启发,但是目前的成果离实现人类大脑系统的功能还很远。其实如果看看不同领域相互借鉴的情况,是可以找到很多证据的。甚至在 30 年前,人们就验证了卷积网络的最初始几层学习到的就是是大脑视觉系统中最初几层的 Gabor 滤波器的作用。


但就协同性而言,我们正在从宏观层面分析神经科学对人工智能研究的引导作用。例如,意识是一种思维过程,只属于人类和某些类型的动物。人们对意识如何在大脑中发挥作用有了越来越深入的了解。是否能打造一台有意识的机器是一个很重要的问题。但目前我们还做不到。但是人们在这方面已经取得了一些进展,了解到有意识的思考过程是如何发生的,并可以基于相关结论尝试构建具有逻辑结构的计算模型。在打造通用人工智能的过程中,我们也许能看到人工智能系统真正掌握了人类的智慧。我希望看到神经科学的研究结果能够更多的指导我们在人工智能方面的研究,我们还有很长的路要走。


主持人:能给出一个具体的时间点吗?


华刚:


很难说,可能要五十年以后,也可能更早。打造有意识的机器是个非常大的挑战,不过能够看到这两个领域的研究人员进行更多的对话,就是一个巨大的进步。

商业化应用

主持人:基于我们已经取得的进展,你最看好哪种类型的商业化应用场景?


华刚:


这是个很好的问题。过去的 30 年,人们一直在讨论如何打造计算机视觉领域的杀手级应用 (Killer Application)。这项技术在各个领域应用非常广泛,比如军事方面,计算机视觉的强大之处不言而喻。不过最让我兴奋的是看到计算机视觉正在将物理世界数字化。在互联网社会中,一切都是数字化的。但是很多在物理世界发生的活动,比如线下的会议或者销售过程中顾客与产品的互动,都没有数字化。所以随着技术的进步,我认为计算机视觉可以在数字化物理环境的过程中发挥核心作用,这样我们就可以做出更好的智能决策,改善我们的生活质量。这算是我的一个愿景吧。

转移学习和主动学习

主持人:我们来谈谈自动驾驶,这是计算机视觉一个最重要的应用。Waymo 的工程部主任 Sacha Arnoud 曾经说过:当你完成了 90%的工作,还有 90%的工作要做。也就是说余下 90%的工作需要花费 10 倍的时间。那么除了深度学习之外,还有什么新的方法能解决这些问题吗?


华刚:


这个问题很难回答。我记得 Jitendra Malik 教授在 2005 年的 CVPR 大会上说过:在计算机视觉领域,90%的问题很容易解决。因此,研究人员确实应该着重研究其余 10%的问题。虽然当今我们高度依赖机器学习来解决许多计算机视觉问题,但对于这 10%的问题,我认为我们需要以非常系统的方式处理它们。这些问题的共同点在于它们都属于极端情况,有时候你可能只是没有足够的数据来训练你的系统。我们需要利用已有的知识来识别和理解这些极端情况。这种学习模模式叫做“转移学习(transfer learning)”,将知识从一个任务转移到另一个任务。


参考人类的学习方式,我们是从语言对话中学习,比如我们两个人在这里进行了愉快的交谈,我们可以相互学习。但对于机器学习而言,我们还不知道如何让它能通过语言来学习。如果我们的机器学习模型就能够理解有效的理解对话了,可能说明我们在朝正确的方向努力,但是要做好打一场持久战的心理准备,我们需要能够解决其余 10%问题的正确工具。


主持人:除了转移学习,能再解释一下主动学习(Active Learning)这个概念吗?


华刚:


主动学习是一个笼统的概念,实际上是指机器以积极的方式参与学习过程,并不指代任何特定的学习方法。这意味着机器知道自己在什么方面做得还不够好。所以它要么主动要求人类提供更多的输入,要么利用庞大的知识库中自己找出解决方案。这是主动学习的要点,它会使学习更有效率。我认为这就是真正的学习。


利用当前的机器学习模式,我们通常会提供大量数据,机器会将这些数据输入到模型中。在运行了一些测试后,你就会发现它在一些极端情况下得不出好的结果,但模型本身也意识到了自己的结果是错误的,甚至会提供一个比较低的置信值。因此,进行主动学习意味着我们需要构建模型,这些模型能够意识到哪个部分的结果不理想,然后将学习重点放在这些方面,进一步改进。

人工智能与零售业

主持人:你最近加入了零售初创公司 Wormpex (便利蜂)担任副总裁兼首席科学家,能给我们介绍一下 Wormpex 吗?你们的职责和企业愿景是什么?你对自己在零售界的职业发展有什么展望?


华刚:


Wormpex AI Research 是中国最大的一个连锁便利店“便利蜂”的研究分支机构。建立这个研究院是希望通过人工智能技术将整个便利店连锁操作系统的运行过程数字化。便利店的业务比较传统,但是利用当今的技术,我们也许能够将从店面到仓库再到制造的各个操作阶段数字化,这样就可以拥有端到端的数字决策系统,并使用这些智能决策反过来影响物理操作。这样一来我们不但可以提高效率,还可以节省大量成本,从而进一步提升利润率。这就是我们研究所的工作重点。


在研究所成立之初,我们就定下了三个目标。第一个目标是我们希望以业务为中心来推动我们的技术研发决策,同时也希望所开发的技术能够有效的改善业务运营。第二个目标是我们希望打造最先进的技术,通过比较高的标准和要求在技术领域找到自己的一席之地。第三就是我们想要探索不同的应用场景以确保技术的可持续性。这就意味着我们有一定的自由来进行一些探索性的研究,推进技术的更新迭代。



智能便利店 (图片来源:便利蜂)


主持人:那么从一个消费者的角度来看,如果我两年后走进你的便利店,会看到什么样的景象?


华刚:


我想对于客户来说最好的人工智能技术就是,当你进入我们的商店时,会马上看到中意的产品,甚至不会意识到这是我们有意安排的。这跟 Amazon Go 不同的地方在于,Amazon Go 只是简化了结账流程,而我们是要了解每一个客户,了解他们的购物习惯和喜好,打造定制化的购物体验。


原文链接:


https://www.robinly.info/post/cvpr-2019-ai-talk-gang-hua-vp-chief-scientist-wormpex-ai-research


2019-07-10 08:0013406
用户头像
Robin.ly 硅谷AI科技、创业、领导力访谈

发布了 49 篇内容, 共 19.1 次阅读, 收获喜欢 59 次。

关注

评论

发布
暂无评论
发现更多内容

图解 | Linux内存回收之LRU算法

程序员 架构 面试

架构作业 - 模块一

Leo Zhao

架构实战营

Fil价格强势上涨!fil的行情走势如何?Fil未来五年多少钱一枚?

区块链 分布式存储 fil币未来价格预估消息 fil大涨 fil价格行情

【LeetCode】二叉树的深度Java题解

Albert

算法 LeetCode 9月日更

Vue进阶(九十二):应用 postMessage 实现窗口通信

No Silver Bullet

Vue 9月日更

如何判断一个项目是否值得投资?

石云升

9月日更

从基础到实战!阿里P9用28天,总结出这份亿级活动高并发系统设计手册

Java 架构 面试 后端 高并发

🌏【架构师指南】带你彻底认识Paxos算法、Zab协议和Raft协议的原理和本质

洛神灬殇

ZAB raft协议 paxos协议 9月日更

架构训练营模块二作业

guangbao

【Flutter 专题】56 图解自定义 BubbleWidget 气泡插件

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 9月日更

激动!阿里技术官纯手打,1263页并发编程全系笔记,限时开源

Java~~~

Java 架构 面试 多线程 并发

谈 C++17 里的 Builder 模式

hedzr

c++ 设计模式

0基础架构入门 - 2(架构设计复杂度模型和应对之道)

felix

架构实战营 0基础架构入门

背完这套Java面试八股文,自动解锁面试牛逼症被动技能

北游学Java

Java 数据库 面试 算法 开发框架

微信朋友圈架构设计

白开水又一杯

#架构实战营

极客时间【架构实战营】第二期 模块二作业

Geek_91606e

架构实战营

双非本科跨专业5面京东,8600小时后收到通知,流下喜悦泪水

Java~~~

Java 架构 面试 微服务 JVM

【架构实战营作业】模块二——朋友圈高性能架构

聆息

算法2021版第0期毕业总结

bin

字节面试官狂问我:如何设计一个高并发系统?

Java架构师迁哥

微信朋友圈高性能复杂度分析

一叶知秋

架构实战营

10个步骤成为K8S云原生工程师

云原生

Kubernetes 云原生 K8S工程师

LeetCode刷题977-简单-有序数组的平方

ベ布小禅

9月日更

阿里进阶专用:Mycat权威指南,不怕从零开始,只怕从未启程

Java~~~

Java MySQL 数据库 架构 面试

香!阿里技术官甩我一份283页Java核心笔记,竟含9大核心

Java~~~

Java 架构 面试 JVM 多线程

Prometheus relabel 透析与实战

卓丁

Prometheus relabel_config

架构实战营-模块二作业

^_^

架构实战营

模块二作业

TIEDPAG

【VueRouter 源码学习】第三篇 - 路由插件 install 的实现

Brave

源码 vue-router 9月日更

架构实战营-模块二作业

南山先生

架构训练营

阿里技术专家,紧跟潮流,解读spring微服务架构技术的演进

Java~~~

Java 架构 面试 微服务 Spring Cloud

专访 Wormpex AI Research 副总裁华刚博士_AI&大模型_Robin.ly_InfoQ精选文章