3 月 13 日,备受瞩目的北大 AI 公开课第四讲如期开讲,商汤科技集团副总裁、商业与数据洞察事业群总裁、工程院院长沈徽带来了《AI 创新与落地》的分享,结合商汤科技在技术创新以及产业落地上的经验和成果,梳理 AI 时代学术创新和产业结合的脉络。
北京大学最受欢迎的 AI 公开课“人工智能前沿与产业趋势”于 2019 年 2 月 20 日正式开课。本学期的课程邀请到了商汤科技副总裁沈徽、驭势科技 CEO 吴甘沙、微软亚洲研究院副院长周明、360 人工智能研究院院长颜水成、YC 中国创始人及 CEO、百度集团副董事长陆奇等 14 位来自产业界的大咖进行授课,我们作为独家合作媒体将全程跟进并对北大这 14 场公开课进行整理,敬请关注!
课程导师:雷鸣,天使投资人,百度创始七剑客之一,酷我音乐创始人,北大信科人工智能创新中心主任,2000 年获得北京大学计算机硕士学位,2005 年获得斯坦福商学院 MBA 学位。
特邀讲者:沈徽,现任商汤科技集团副总裁、商业与数据洞察事业群总裁、工程院院长。曾任微软全球合伙人,并担任微软(亚洲)互联网工程院常务副院长,在人工智能的工程产品领域具有丰富的管理经验和前瞻洞见。
北大 AI 公开课第一讲回顾:《雷鸣:人工智能革命与机遇》
北大 AI 公开课第三讲回顾:《京东何晓冬:自然语言与多模态交互前沿技术》
以下为 InfoQ 独家整理的沈徽老师课程内容(略有删减),由 InfoQ 独家整理首发,未经授权请勿转载。
大家好,很高兴来到北大和各位同学们分享商汤在计算机视觉领域的技术进步,以及产业化落地的情况。
深度学习带来全新的 AI 技术革命
人类有据可查的四五千年的历史,其实是一场又一场持续不断的技术革命。从渔猎时代到农业时代,再到蒸汽时代、电力时代,技术的革命带来了生产力工具的革命,进而影响到人类社会的发展。我们在过去七八年间所经历的由深度学习带来的 AI 技术的进步,会给我们带来进一步的生产力的革命。过去的几次生产力革命,更多的是从我们的物理能力上面做了延展,使我们能够跑的更快、跳的更高、力气更大、动作更敏捷、更不知疲劳。但是 AI 的技术是对人类脑力的一次延展,使我们能够看的更远、看的更清楚、想的更快、想的更透彻。因此 AI 技术所带来的生产力的进步可能会跟以往四次技术革命有一些本质上的突破和区别。
人工智能其实是一个古老的话题,在这之前已经经历过两次浪潮的起落。我们现在正在经历的这次人工智能浪潮从 2010 年之后开始,以深度学习技术真正被实用化为起点,迎来了第三次高潮。在这一波 AI 浪潮中,技术和工程上都取得了很多突破,并且这些突破在多个 AI 相关领域,不管是计算机视觉技术,还是在语音,甚至在一部分自然语言处理等各方面都得到了验证。
传统机器学习的特征工程化是一项特别庞大的工作,需要耗费非常多的人力,要有大量数据工程师、算法工程师投入其中,他们玩命做的就是这样一件事情——如何从海量数据中提取出一个更好的特征或者更好的一些特征集,然后再把它输入到神经网络里面去。深度学习所带来的改变,就是我们不再需要太多的人为干预去创造特征。有了深度学习之后,特征工程可以靠神经网络自己不断地学习做出来。
为什么说深度学习带来了一场新的技术革命?AI 技术在过去 60 年起起伏伏,但只有深度学习出现之后才带来了根本性的变化和进展。2014 年左右,深度学习图像分类的准确率在 ImageNet 比赛中第一次超过了人眼准确率,将传统计算机视觉的准确率提升了 20%以上。在很多其他细分领域,深度学习也发挥了很大的作用。相当于人类获得了一项工具,工具能够从我们生活的方方面面显著地提升我们的能力。量变最后会发生质变,就会带来技术革命。现在媒体上经常听到两种不同的观点,一种认为强人工智能就要来了,人类应该开始考虑如何不被机器取代,还有一种则比较悲观,认为现在的 AI 浪潮也只是昙花一现。
我认为任何一种技术的进步都一定会经历三个阶段,第一个阶段是技不如人。在 2011 年之前,从图形图像识别来说,机器是技不如人,人的错误率大约在 6%,而机器的错误率高达百分之几十,基本是瞎猜。第二个阶段是超越大众,这里指的是在一些定义得比较好的细分问题领域超越大众。第三个阶段是超越专家,超越的方向分为两个,一个是在任何细分领域都可以超越,另一个是技术在横向层面的延展,本来以前人类不能做的事情现在可以做了。
那我们现在在哪呢?我们正处在从技不如人到超越大众阶段的拐点。为什么说它处在这样一个阶段,是因为我们的超越也是在不同的细分领域上逐步达成的。比如现在在人脸识别上,机器比人要强的多。但是在很多其他领域,比如自动驾驶,对环境道路的认知上,机器还需要再迭代一段时间,才能够达到人今天能够达到的高度。当我们达到超越大众的阶段之后,你会发现很多的产业或产品都会发生巨大的变化。
AI 在商汤的创新与落地
但光谈技术本身是没有价值的,技术必须跟产业结合、跟人的实际生活结合,才能真正地把它的价值体现出来。
对于商汤而言,我们一方面是在 AI 技术上不断地推进和迭代,更重要的另一项工作是把这些研究的成果真正赋能到各个产品和行业中,为人类服务。这里我想从三个方面去谈 AI 在商汤的创新落地,第一个是技术与平台,第二个是产品,第三个是行业解决方案。
AI 技术与平台
在技术与平台层面,商汤主要关注三个比较重要的技术方向。
深度学习平台 SenseParrots
商汤自建 SenseParrots 深度学习平台支持超深网络和超大数据学习。我们的训练平台可以支持超过十亿数据样本在一个学习 Job 里完成,这是在大型分布式系统的支持下实现的。另外,SenseParrots 可以解决复杂的关联性应用。我们在实践当中发现大量的问题不是靠一个深度学习的模型就能解决的,它往往是一些深度学习模型的组合,再加上一个逻辑。所以当我们去针对这些端到端的问题进行训练的时候,一定是复杂关联应用的训练,而不是局部的优化。
从算力上来看,商汤在过去几年所拥有的 GPU 数量已经有了非常大的提升。现在我们的集群里有 14000 个 GPU,最大的单个集群有超过 1000 个 GPU,也就是说一个训练的 Job 可以在 1000 个 GPU 上并行实现。另外,商汤已经积累了覆盖 18 个不同行业,超过 100 亿的图像、视频数据,可以使我们的训练质量越来越好。
AR 引擎 SenseAR
增强现实指的是,一个场景中有一部分是在物理世界真实存在的,有一部分是虚拟的,虚拟的这部分是对物理世界的增强。如果想做 AR,首先要对物理世界有感知,机器要比较好地了解物理世界,对它有一个很好的数字化的理解,然后再把虚拟的物体有机地和这个被数字化过的物理世界做结合。AR 是一个双向的交互方式,既有机器对人的观察,也有机器对人的展现。
提一个 AR 相关的技术,6 个自由度下的实时跟踪。这个问题的挑战在于,手机本身是人拿在手里的,它的角度、位置以及方向等各方面都在不断变化,在这种情况下,摄像头也会随之颤抖。换句话说,你的取景角度、方位也好,都在发生变化。在这种条件下如何获取稳定的、对于物理世界的理解,同时去产生一个稳定的虚拟物体,在物理世界上的输出,是比较大的挑战。
这里谈一下“稀疏点恢复”。我们能够用点云对外面世界的关键点做提取,当关键点的位置发生变化的时候,就能够知道视角发生了一定的偏移,同时再跟手机内部本身的陀螺仪等组件给出的参数不断地做校准,就能做到在产生 AR 效果的时候没有偏差和抖动,保证精度和稳定的跟踪。第二个,它能够做到在有限的算力下获得有效的输出。对于点云而言,当它能够处理的点越多,就意味着可以产生更大密度的点云的提取,或者能够从更大的范围去做提取,这都是对 3D AR 很重要的技术。
商汤很早就开始在做 AR 平台了。2017 年下半年的时候,Google 和 Apple 分别发布了他们自己的 AR 平台,而商汤的 SenseAR 平台从 2016 年开始就在内部使用了。
另外还有关键点技术,它不光用在 AR,它对于人脸比对和验证也很重要。关键点指的是人脸上面比较重要的一个点,它能够反映一个人的脸部特征,不管是以前的 106 个关键点,还是现在的 240 个关键点的行业标准,也都是由商汤定义的。
自动驾驶技术 SenseDrive
接下来我想谈谈自动驾驶场景和技术。
可驾驶区域和车道线的检测是自动驾驶最基本的能力之一,而这样的一种能力用计算机视觉技术是最适合的。因为第一步需要对道路的基础设施提出更多改变的需求,第二它能够达到很高的精度。下面展示了一些例子,包括车辆距离的检测以及行人意图的检测。右边这张图是通过自动驾驶系统判定行人想往哪个方向走、以多快的速度走,这是对行为的理解,在自动驾驶里非常重要。
当我们用计算机视觉去解决类似车道线检测这样的实际问题的时候,不光会用到深度学习技术,也需要和人的经验或者传统的规则做结合,才能达到更好的效果。这里举个例子,下面第一张图是原图,可以看到其实从摄像头看过去,右边是被车辆遮挡的,但我们有一些先验的知识,将这些先验知识和深度学习做结合之后,就能很好地还原出黄色的车道线,就是右边的图。
自动驾驶不光是看车窗外面,还要看车窗里面。下图演示的是对驾驶员的理解和监控,比如他注视的方向,所做的动作,包括打电话、打盹等。DMS 应用中,需要做到对人瞳孔的实时定位。通过对瞳孔的定位去感知他的视线,通过视线的感知,知道他的注意力在哪个方向。当前不管是用 2D 还是 3D Sensor 都能达到比较高的精度,这些技术也不断地应用在汽车里。大家慢慢可能会在车里看到更多的这种被 AI 驱动的驾驶员感知能力。
AI 产品
智能手机
商汤在智能手机上的 AI 落地产品包括人脸解锁、人脸 3D 重建、SenseMoji 等等。
人脸解锁是苹果在 2017 年 iPhoneX 发布的时候推出的。几乎在同期,国内很多企业的安卓系统也发布了人脸解锁功能。目前中国主要的手机厂商都在大量应用商汤的人脸解锁技术。从人脸解锁算法的普适性(包括适用于不同的模组、不同的处理器),以及达到的精度和速度来说,商汤在全球都是领先的。人脸识别的错误率上,我们能够达到 10 的负八次方,超过苹果的 10 的负六次方。
人脸解锁的流程,主要说几个点,第一,针对不同的模组,包括 3D、2D、2.5D、结构光、ToF 各种不同的 Sensor,我们都有相应的算法支撑和迭代。第二,图中蓝色部分是对活体检测和反攻击能力的构建。活体检测指的是通过模型检测是不是一个真正的活人,它也是矛和盾在不断互相对抗的过程。一开始大家可能想用照片来骗过人脸解锁,后来想着用视频,再后来想用 3D 面具,或者带有一定遮挡的 3D 面具等不同技术手段来做攻击。所以我们活体检测技术也会相应地升级去防止这种系统性的攻击。
另外一个人脸的 3D 重建,只需要用手机拍下脸部上下左右和正面五个角度略有不同的照片以后,我们就能够构建出人脸的 3D 模型。当我们有了人脸 3D 模型以后,就可以在上面加入特效、美颜等功能。
在小米 8 透明探索版和华为 nova3 中使用了商汤的 SenseMoji 技术,它可以模仿人的表情来生成相应的动物表情包,还能够感知人呈现出的情绪状态来改变表情包的颜色。SenseMoji 背后涉及的技术首先是关键点的定位与追踪,需要把人脸重要的点找出来,然后基于机器学习去探索和发现,当这些关键点和正常的平静的脸部表情之间有偏差的时候代表的是什么情绪,最后构建出来以后再把情绪通过虚拟的形象表达出来,这又叫人体的表情迁移。
刷脸
大家一提商汤就会想到刷脸,我们确实也刷脸。刷脸其实不光用在 Access Control 里面,包括支付、认证、会员和 VIP 的识别等都可以用到。这也是计算机视觉最早落地和产品化的技术之一。
人脸检测其实有很多技术上的难点。第一个难点,当人通过闸机的时候,人跟闸机上的摄像头之间的距离是不断变化的。越好的算法,它对变化的适应性越强,能够越快地去做人的比对,然后开门或拒绝开门。因为摄像头是以每秒钟比如说 25 帧这样的速度去拍摄的,所以最简单的做法是,当我拍下来一张图片的时候,就以各种预设好的图片的大小去把框截取出来做人脸的检测,再把检测到的人脸做拉伸。这面临的很大的挑战就是算力,这样做的算法是对各种尺寸潜在脸大小的遍历过程。
我们的做法是在模型训练当中就把不同尺寸大小的脸结合进去,在模型里做优化,这样能够得到极大的速度提升和精准度的提升。与此相关的,如何优化,包括算法本身的优化,以及工程上的优化,能够提升速度。下图表格说明在同样的一个网络结构,但做了不同类型的优化以后的速度提升,最高能够达到 800 倍。这就是 0.01 秒和 8 秒延迟之间的区别。这些技术已经用在多种设备上面,包括酒店入住时用到的身份验证一体机、人脸识别安检通道等设备。
行业解决方案
对于一个 To B 的产品或行业来说,很多时候 B 端用户并不关注你的产品有多炫、功能有多强,他们在意的是他有一个问题需要解决,你有什么办法能够帮他们解决。行业解决方案涵盖了多种产品和技术,最后要达成的目的就是把客户的痛点解决掉。
我们去年跟苏宁一块做了无人店的案例。对于零售行业,线上和线下的体验是不一样的。在线上线下,我们对于信息的获取、选择推荐,以及最后的结算和运输,都是不一样的。为什么会有这样的区别呢?因为线上的交易也好,商业行为也好,是几乎被百分之百数字化的。在这样一个数字化环境里面,我们能够用数字化的手段去做服务提升、降本增效。但是线下在有计算机视觉技术之前,我们很难让机器去理解线下的人、货、场之间的关联,这些事情不能完全靠人力去观察和记录。
正是由于计算机视觉技术,我们可以真正去数字化线下的物理世界,当物理世界被数字化之后,就可以做更多计算,用数字化的手段去提升体验和效能,包括刷脸支付、对人流进行分析和统计、对人的偏好进行理解,等等。在这样一个解决方案里面,涵盖了很多技术,包括刷脸的技术,包括对人流统计的技术,包括怎么样能够做到高精度的支付,包括我们对人的行为的理解,等等。这个场景是多项 AI 技术和传统技术的结合,形成了一个全新的解决方案。
第二个例子是智慧城市案例,对社区进行数字化改造。
在这样一个解决方案里面,除了需要用到很多 AI 的视觉技术之外,我们也需要一个巨大的系统。涵盖的面积越大,需要处理的数据量就越大,不光对 AI 的技术本身的精度提出了更多的要求,同时也对计算机视觉系统提出了更高的要求。上面这些场景背靠的是 SenseFoundary 方舟这样一个平台。
方舟平台是到目前为止在业界唯一能够支撑超万路的系统,而且已经被实施部署在多个地方。我们在上海部署的这样一套系统接入了 22000 路视频,是业界绝无仅有的。方舟平台同时还具备很多其他的能力,包括线性扩展能力、多种算法的融合以及扩充的能力,高精度算法自我迭代能力,等等。
小结
计算机视觉虽然是一个名词,其实它涵盖了很多技术方向。如果想要真正把计算机视觉产业化,不只是需要一两个技术点的突破,它需要的是整体平台性的提升,必须要同时投入多个技术方向,这也是商汤在过去的几年一直持续在做的事情。我们在包括 SLAM、主动学习、三维重建、强化学习、图像分类、底层视觉等方向都有相应的布局和工程上的迭代,这样一来当你碰到一个实际问题的时候才有足够的武器去解决它。
如果说我们的 AI 技术想落地,就必须在不同的工业领域上去做探索,才能真正形成一个行业线。AI 技术的创新和赋能百业这两件事情是需要不断地相互迭代、相互促进的。
我今天的分享就到这里,谢谢大家的耐心。
Q&A
提问:您在微软呆了很长时间,后来加入了商汤,一直都是做高管,您肯定经历过很多面试,也就是选择人才的工作。从您作为雇佣者的身份出发,您觉得现在刚出学校的同学在哪些方面有欠缺?您最希望同学们在学校得到哪些教育或者技能?
沈徽:首先我不认为大家有什么共同的点是比较欠缺的。当我面试的时候,特别是面试刚刚从学校毕业的学生时,我比较看中的几个方面。
第一点,看态度。他对技术或者所做的事情是不是有一种渴望,是不是有学习的精神。好奇心是第一重要的,态度决定一切。北大的同学能够拥有的机会是非常多的,在座的各位一定要去找一件你特别想干的事情。一定要去想自己到底想干什么,这样你在面试中体现出来的积极的精神是掩盖不了的。
第二点,看基本技能。因为我是面试跟计算机相关的,那就是计算机的一些基本技能。在不同的历史时期,流行的计算机技术会不太一样,但它们所涵盖的一些基本的能力,比如分析问题解决问题的能力、数字化的洞察力,以及基础的知识,这些可能是共通的。所以在面试的时候,我面试更多的不是知识点,而是一些技能点。
第三点,看学习能力。在计算机行业,不管你现在学的是什么,如果你一直保持现在的状态不变,5 年之后一定落伍了。因为计算机行业是一个不断迭代、不断前进的行业,所以不断学习、快速学习的能力很重要。在面试当中,也非常容易看出一个候选人有没有这方面的能力。学习能力涵盖很多方面,包括理解力,包括他找出问题的重点和问题当中的缺口的能力,包括去不断的推导、演进然后部分解决问题之后能够达成的效果,这些都是学习能力的体现。我比较看中这几个方面,当然还有其他软性技能,包括沟通能力,但这些是可以慢慢培养的。
提问:人工智能无疑是一个热点,但除此之外还有没有其他可能会对未来的科技发展、人们的生活产生重要影响的 IT 技术热点是值得大家去关注的?如果大家要申请国外的学校专业,您是否能给大家一些建议?
沈徽:AI 确实是比较热,但是大家谈 AI 很多时候就只关注一个点就是算法。我觉得算法只是构成 AI 这样一个金字塔的基石之一,还有很多方面都是非常重要的,包括像系统架构的能力,对软硬件体系结构的理解和优化的能力,把实际问题抽象成算法再加上一些编程能解决的问题的能力,这些方面都是一些潜在的可以去发力的方向。
但是也要看大家未来的方向是更加偏向工业界还是研究。对研究来说,值得去细分的领域就会更多,对于要进入工业界的同学来说,要去关注的这些方向是相对比较综合的。
谈到申请国外的学校,我最近没有特别的关注,但我建议大家以“我”为主,看你真正的兴趣和所擅长的点在哪里,把这些作为你的强项或者突出点去构建,而不要去跟风,我觉得不是每个人都需要学习人工智能。包括现在在计算机领域,也有很多方向都是很有意思的。像当时在微软研究院,很早就有像语音、自然语言理解的研究,虽然你也可以说这里面有很多 AI 的技术,但它其实整个是一个系统工程,AI 是它的工具之一。当时我们有系统组,十几年前分布式存储是最重要、急需解决的问题,因此系统组在做分布式存储,解决大规模系统下的一致性、鲁棒性问题;到十年前分布式计算变得很重要,包括流计算、图计算;现在 AI 变得很重要,那么就要做训练系统、推理系统等等。虽然他们研究的是系统方向,实际上也仍然能够跟技术发展的潮流去做结合。
我觉得还是第一找到自己的兴趣点和长处,第二个在这个方向上真正能够做出与众不同的东西来,否则即使你去做了,也不过就是跟随前人的一些经验,其实也没有达到它真正的意义。
提问:前几天读了一篇文章,文章中讨论了一个现象,国外很多大企业家其实都是在本科辍学之后去创业并获得了成功,但是我们中国的学生在本科期间辍学创业的成功率非常低。对于这个问题您有什么看法或者对大家有什么建议吗?
沈徽:首先我觉得辍学是一个结果,不是一个原因。创业成功,辍学是结果之一,并不是因为他辍学了所以他创业成功。所以大家创业的时候不要先考虑是不是要辍学,而是考虑你要做什么。他们辍学的原因是因为他们觉得在那个时间点他们要做的事情不是去读书,因为读书对他们来说成长速度不够快了,他们要去做一些事情去超越学校之外。但并不是每个人都是这样的状态,比如商汤科技的创始人汤晓鸥老师是获得了 MIT 的博士学位的,所以说辍学不是创业成功的手段,更不是创业成功的唯一手段。
另一方面,大家也不要把学历作为自己的一个界限,我必须要拿到什么样的学历,才能够做什么样的事情。我觉得学历也是个结果,经过四年的本科或者几年的研究生教育,最后给你一个结论,但它不是一个目的。并不是说你拿到了博士学位,你就能怎么怎么样,更多的是说,你通过拿博士学位,你学到的这些能力和积累的经验,能够帮助你去得到什么。这也是为什么,很多时候我们做事情,要想到你真正的目标是什么,而不是看表面上的东西。包括辍学创业也好,或者非要去拿某个证、考某个学位也好,千万不能把这些东西作为一个目标。
提问:现在很多 AI 创业公司都有非常强大的研发团队,团队都是由博士生和资深工程师组成的,感觉硕士地位有些尴尬,不上不下,所以想问问您,硕士生应该要如何规划自己的的职业?
沈徽:我也是硕士生。我觉得还是之前谈的,重要的不在于学历,重要的还是在于能力。包括在商汤,大量的工程师、研究人员也是硕士学历,甚至有一些是本科学历。我们有一个很资深的架构师是本科毕业,就一直在商汤成长起来。所以我既不觉得硕士是个优势,也不觉得它是个劣势,它只是一个经历,更重要的是你在硕士背后学到了什么,这些东西能怎么去帮助大家。20 年前,我们那时候上大学的时候,确实是本科相对比例就比较少,如果能读硕士的话,那么对于用人单位来说可能是一种证明。现在回想,其实那也只是在当时的历史阶段,社会的一种片面认识。现在大家去读书获取学历的途径也会比较多一些,用人单位也会从更综合的角度看一个侯选人,不会单纯看学历。是不是硕士其实不是一件特别值得去焦虑的事情,更重要的是你真正拥有的能力点在哪里。
提问:我是一个研二的学生,目前正在做 CV 落地的创业,想请教沈老师,面对像商汤这样的独角兽公司和大企业,初创小公司还有机会吗?
沈徽:创业公司最大的敌人是自己。我们深入来看跟计算机视觉技术相关的产业,大部分是 To B 的。在这样一个市场上,细分领域的需求点很多,即使在某个特定的方向上也有多个可以生存和发展的机会,所以并不存在互联网产品那样赢家通吃的现象。
回到创业本身,我觉得其实还是要看自己需要去克服的东西,创业者非常不容易,条件有限,要克服的困难非常多。很多时候,创业者所面临的问题 90%甚至 95%都是他在学校没有学到过的。这就需要他不断去战胜自己,使自己能够成长起来,而不要太多地过于顾虑这些所谓的独角兽,或者是大公司。
话说回来,并不意味着你做公司可以非常盲目,什么热做什么。往往这些热的地方,竞争也会相对更激烈一些。要找准自己的特点和能力突出的点,以及相对有空间供你去发展的这样一个领域。初创公司有一个很大的优势就是比较小,那么一开始它对成长空间的需求也会比较小,长大到一定能力的时候,可能才会面临一些真正的生态跟生态的相撞,就像是大象进到一个屋子里难免顶起来,现在还只是一只蚂蚁的时候,空间还是很大的。
下期预告
3 月 20 日 周三晚 18:40,北京大学“人工智能前沿与产业趋势”第五讲,将由驭势科技联合创始人、董事长、CEO 吴甘沙为大家授课。
评论 1 条评论