写点什么

专访 Wormpex AI Research 副总裁华刚博士

  • 2019-07-10
  • 本文字数:3694 字

    阅读完需:约 12 分钟

专访 Wormpex AI Research 副总裁华刚博士

本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。


本期Robin.ly CVPR2019 专题访谈特邀 Wormpex AI Research 副总裁兼首席科学家华刚博士,在美国长滩 CVPR 大会现场分享他对计算机视觉领域的进展和挑战的思考,以及人工智能在零售业应用前景的展望。


Wormpex AI Research 是中国最大的便利连锁店“便利蜂”的研究分支。加入 Wormpex 之前,华刚曾担任微软计算机视觉科学主任以及史蒂文斯理工学院副教授。他同时也是 IEEE Fellow,IAPR Fellow 和 ACM 杰出科学家。他的研究领域包括计算机视觉、模式识别、机器学习和机器人技术等。华刚在本次 CVPR 担任大会 Program Chair.


下文为 Robin.ly 主持人 Margaret Laffan 与华刚博士的访谈实录。

计算机视觉的研究进展

主持人:我知道你是一位非常有成就的计算机视觉科学家,也是此次 CVPR 大会的 Program Chair。能不能跟我们分享一下计算机视觉研究领域最近几年的进展?


华刚:


你过奖了,是计算机视觉这个社区给我提供了良好的职业发展机会。如果我们回顾过去几年的研究进展,最大的收获就是深度学习在计算机视觉领域得到了长足发展。我们正在利用深度学习和数据的力量来解决各种各样问题,但我们也不应该忽略将物理建模和统计学习相结合、和深度学习方法相结合,这样我们才能取得更多的研究进展。



图片来源:微软研究院(亚洲区)


主持人:作为大会的 Program Chair, 你们是如何选拔出优秀的学者来 CVPR 做学术报告的?


华刚:


CVPR 社区高水平研究和学术声誉在很大程度上得益于我们完善、客观、严格的评审过程。我们的专业评审主席和审稿人会为投稿者提供建设性的反馈。我们从高质量的投稿中选择了质量最高的一些论文,并邀请作者来参加为期五天的会议。

深度学习的影响

主持人:你曾在微软从事基于深度学习的视觉理解(Vision Understanding),面部识别(Facial recognition)和视觉生成 (Vision creation)这三个方面的工作。能讲一讲深度学习在这些领域有哪些突破和挑战吗?


华刚:


我认为过去这三个方面确实取得了非常大的进步。首先说一下视觉理解。我们正在努力尝试理解视频中的场景。这个研究领域的进展得益于计算机视觉中的很多其他技术,例如物体识别、人体识别、情感分析等等。我们需要将潜在的几种计算机视觉技术结合在一起,全面的了解动作事件。所以这个领域的发展是得益于一些基础性技术的进步。


面部识别结合了数据和深度学习,深度网络等精准模型,这些模型的快速发展使商业化成为可能。从 20 世纪 90 年代早期开始,人们就在着手打造面部识别的标准,那段时间实际上是美国政府推动了事情发展。


在视觉生成方面,人们使用了一系列深度学习方法,称为深度生成模型(Deep Generative Models)。生成模型在计算机视觉领域并不算一个新的领域,2000 年左右就有很多基于传统统计模型的这方面的工作,实际上有很多研究工作的目的就是为视觉内容创作打造模型。深度生成模型能够高效的拟合任何类型的数据分布,于是迅速受到了广大研究人员的青睐。我们正在努力让艺术创作的过程对用户更友好。


主持人:那么关于人工智能的未来,你觉得我们可以从神经科学研究中学到什么?不同的领域又是如何相互借鉴的?


华刚:


这个问题问得很好。虽然深度学习也是间接受到了生物学研究的启发,但是目前的成果离实现人类大脑系统的功能还很远。其实如果看看不同领域相互借鉴的情况,是可以找到很多证据的。甚至在 30 年前,人们就验证了卷积网络的最初始几层学习到的就是是大脑视觉系统中最初几层的 Gabor 滤波器的作用。


但就协同性而言,我们正在从宏观层面分析神经科学对人工智能研究的引导作用。例如,意识是一种思维过程,只属于人类和某些类型的动物。人们对意识如何在大脑中发挥作用有了越来越深入的了解。是否能打造一台有意识的机器是一个很重要的问题。但目前我们还做不到。但是人们在这方面已经取得了一些进展,了解到有意识的思考过程是如何发生的,并可以基于相关结论尝试构建具有逻辑结构的计算模型。在打造通用人工智能的过程中,我们也许能看到人工智能系统真正掌握了人类的智慧。我希望看到神经科学的研究结果能够更多的指导我们在人工智能方面的研究,我们还有很长的路要走。


主持人:能给出一个具体的时间点吗?


华刚:


很难说,可能要五十年以后,也可能更早。打造有意识的机器是个非常大的挑战,不过能够看到这两个领域的研究人员进行更多的对话,就是一个巨大的进步。

商业化应用

主持人:基于我们已经取得的进展,你最看好哪种类型的商业化应用场景?


华刚:


这是个很好的问题。过去的 30 年,人们一直在讨论如何打造计算机视觉领域的杀手级应用 (Killer Application)。这项技术在各个领域应用非常广泛,比如军事方面,计算机视觉的强大之处不言而喻。不过最让我兴奋的是看到计算机视觉正在将物理世界数字化。在互联网社会中,一切都是数字化的。但是很多在物理世界发生的活动,比如线下的会议或者销售过程中顾客与产品的互动,都没有数字化。所以随着技术的进步,我认为计算机视觉可以在数字化物理环境的过程中发挥核心作用,这样我们就可以做出更好的智能决策,改善我们的生活质量。这算是我的一个愿景吧。

转移学习和主动学习

主持人:我们来谈谈自动驾驶,这是计算机视觉一个最重要的应用。Waymo 的工程部主任 Sacha Arnoud 曾经说过:当你完成了 90%的工作,还有 90%的工作要做。也就是说余下 90%的工作需要花费 10 倍的时间。那么除了深度学习之外,还有什么新的方法能解决这些问题吗?


华刚:


这个问题很难回答。我记得 Jitendra Malik 教授在 2005 年的 CVPR 大会上说过:在计算机视觉领域,90%的问题很容易解决。因此,研究人员确实应该着重研究其余 10%的问题。虽然当今我们高度依赖机器学习来解决许多计算机视觉问题,但对于这 10%的问题,我认为我们需要以非常系统的方式处理它们。这些问题的共同点在于它们都属于极端情况,有时候你可能只是没有足够的数据来训练你的系统。我们需要利用已有的知识来识别和理解这些极端情况。这种学习模模式叫做“转移学习(transfer learning)”,将知识从一个任务转移到另一个任务。


参考人类的学习方式,我们是从语言对话中学习,比如我们两个人在这里进行了愉快的交谈,我们可以相互学习。但对于机器学习而言,我们还不知道如何让它能通过语言来学习。如果我们的机器学习模型就能够理解有效的理解对话了,可能说明我们在朝正确的方向努力,但是要做好打一场持久战的心理准备,我们需要能够解决其余 10%问题的正确工具。


主持人:除了转移学习,能再解释一下主动学习(Active Learning)这个概念吗?


华刚:


主动学习是一个笼统的概念,实际上是指机器以积极的方式参与学习过程,并不指代任何特定的学习方法。这意味着机器知道自己在什么方面做得还不够好。所以它要么主动要求人类提供更多的输入,要么利用庞大的知识库中自己找出解决方案。这是主动学习的要点,它会使学习更有效率。我认为这就是真正的学习。


利用当前的机器学习模式,我们通常会提供大量数据,机器会将这些数据输入到模型中。在运行了一些测试后,你就会发现它在一些极端情况下得不出好的结果,但模型本身也意识到了自己的结果是错误的,甚至会提供一个比较低的置信值。因此,进行主动学习意味着我们需要构建模型,这些模型能够意识到哪个部分的结果不理想,然后将学习重点放在这些方面,进一步改进。

人工智能与零售业

主持人:你最近加入了零售初创公司 Wormpex (便利蜂)担任副总裁兼首席科学家,能给我们介绍一下 Wormpex 吗?你们的职责和企业愿景是什么?你对自己在零售界的职业发展有什么展望?


华刚:


Wormpex AI Research 是中国最大的一个连锁便利店“便利蜂”的研究分支机构。建立这个研究院是希望通过人工智能技术将整个便利店连锁操作系统的运行过程数字化。便利店的业务比较传统,但是利用当今的技术,我们也许能够将从店面到仓库再到制造的各个操作阶段数字化,这样就可以拥有端到端的数字决策系统,并使用这些智能决策反过来影响物理操作。这样一来我们不但可以提高效率,还可以节省大量成本,从而进一步提升利润率。这就是我们研究所的工作重点。


在研究所成立之初,我们就定下了三个目标。第一个目标是我们希望以业务为中心来推动我们的技术研发决策,同时也希望所开发的技术能够有效的改善业务运营。第二个目标是我们希望打造最先进的技术,通过比较高的标准和要求在技术领域找到自己的一席之地。第三就是我们想要探索不同的应用场景以确保技术的可持续性。这就意味着我们有一定的自由来进行一些探索性的研究,推进技术的更新迭代。



智能便利店 (图片来源:便利蜂)


主持人:那么从一个消费者的角度来看,如果我两年后走进你的便利店,会看到什么样的景象?


华刚:


我想对于客户来说最好的人工智能技术就是,当你进入我们的商店时,会马上看到中意的产品,甚至不会意识到这是我们有意安排的。这跟 Amazon Go 不同的地方在于,Amazon Go 只是简化了结账流程,而我们是要了解每一个客户,了解他们的购物习惯和喜好,打造定制化的购物体验。


原文链接:


https://www.robinly.info/post/cvpr-2019-ai-talk-gang-hua-vp-chief-scientist-wormpex-ai-research


2019-07-10 08:0013381
用户头像
Robin.ly 硅谷AI科技、创业、领导力访谈

发布了 49 篇内容, 共 18.9 次阅读, 收获喜欢 59 次。

关注

评论

发布
暂无评论
发现更多内容

2024年团队任务分配软件推荐:7大热门工具

爱吃小舅的鱼

团队管理 任务管理 任务管理工具 任务分配工具 团队任务管理

项目管理优化:7款顶级多项目软件解析

爱吃小舅的鱼

项目进度管理 项目进度管理软件 项目进度管理工具

MySQL 备库可以设置 sync_binlog 非 1 吗?

爱可生开源社区

MySQL 数据库 MySQL主从复制

汽车辐射大?技术来救它:整车辐射抗扰发射天线仿真建模及性能预测

Altair RapidMiner

人工智能 汽车 仿真 altair 辐射

管理能力达到国际认可水平 智谱获得国内首批ISO/IEC 42001:2023人工智能管理体系认证证书

技术研究院

大咖公开课 | 大模型场景讲解以及测试方法

霍格沃兹测试开发学社

火山引擎VeDI数据技术分享:两个步骤,为Parquet降本提效

字节跳动数据平台

云服务 数据平台 火山引擎 数据飞轮

性能提升20%,字节跳动HTTPDNS从中心下沉到边缘

火山引擎边缘云

边缘计算 HTTP DNS #DNS 边缘计算平台

如何在 SpringBoot 中优雅的做参数校验?

快乐非自愿限量之名

Java Spring Boot 后端

如何借助逻辑数据编织平台实现“数据优先堆栈( DFS )”

Aloudata

数据仓库 数据虚拟化 数据编织

天工一刻 | 一文看懂3D大模型

新消费日报

精选顶级工时管理平台:你的最佳选择

爱吃小舅的鱼

工时管理 工时管理系统

澳鹏Appen入选大模型产业链基础层图谱及案例研究

澳鹏Appen

大模型训练 大模型 百模大战

探索最佳工作内容管理工具:2024年7大精选

爱吃小舅的鱼

任务管理 任务管理软件 任务管理工具 工作内容管理工具

从焦虑症到AI「网红」:这名程序员是如何让AI「助他一臂之力」

新程序员编辑部

ChatGPT Prompt

《饿殍:明末千里行》PC+手机版分享,高达97%的好评率。

你的猪会飞吗

单机游戏

全面解析:抖音商品列表数据接口的使用与集成技巧

tbapi

抖音 抖音商品列表数据接口 抖音商品列表数据采集 抖音API接口

Kubernetes集群的ETCD分布式数据库高可用原理解析

inBuilder低代码平台

开源 云原生 Kubernetes, 云原生, eBPF

智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐

不在线第一只蜗牛

人工智能 AI

涨见识了!脱离vue项目竟然也可以使用响应式API

快乐非自愿限量之名

JavaScript Vue 前端

HAProxy 可观测性最佳实践

观测云

HAProxy

用Python来DIY一个AI面部情绪识别API的简单方案

幂简集成

API

程序员,到底要懂多少业务?

秃头小帅oi

商品图片与详情描述:1688 API返回值的重要部分

技术冰糖葫芦

API 文档 API 测试 API 优先 API Hub

AWS 弹性伸缩特性介绍

AutoMQ

云计算 kafka 云原生 AWS

待办事项软件选择指南:挑选你的效率助手

爱吃小舅的鱼

待办事项

写报告 进图谱 做演讲,可信数据库大会上亚信科技AntDB可太忙了

亚信AntDB数据库

如数据血缘探究数据管理的“自治理”

Aloudata

Data 数据管理 数据血缘 Data Fabric

一文剖析高可用向量数据库的本质

Zilliz

人工智能 大数据 AI Zilliz 向量数据库

【YashanDB知识库】使用select * 创建的物化视图无法进行查询重写

YashanDB

yashandb 崖山数据库 崖山DB

你知道程序员再过几年会没落?

高端章鱼哥

专访 Wormpex AI Research 副总裁华刚博士_AI&大模型_Robin.ly_InfoQ精选文章