专访图森侯晓迪：在中国做自动驾驶的美好前景与难点

最近自动驾驶新闻频频，如沃尔沃 Uber 联手自动驾驶，福特、Uber 争相发布无人驾驶商用时间线，comma.ai 开源，tesla 首例自动驾驶致死车祸…由此我们也能看到自动驾驶的热度，看起来像未来商务，但我们是否清楚这份技术离我们到底有多远？

近日，图森互联正式宣布与北奔研究院、北京理工大学达成战略合作伙伴关系，三方将以计算机视觉技术为基础在自动驾驶领域展开合作，属国内首例科技企业、车企、高校联合研发针对重型汽车特别是军用重型汽车自动驾驶技术。图森互联负责研发基于计算机视觉和深度学习算法，提供自动驾驶解决方案。

InfoQ 有幸采访到图森互联 CTO，联合创始人侯晓迪。并且这个采访周末前还在沟通问题提要，周末后便收到了回复，看到答案第一感觉就是非常严谨，也能从小处看到个人的高效作风。

侯晓迪，2003 年进入上海交大，并于大三发表了高引用论文；加州理工计算与神经系统博士，计算机视觉和认知科学领域专家。创立了基于频域的视觉注意机制理论。是近 10 年来在视觉注意机制最有影响力的研究。是计算机视觉领域全球华人博士中学术文章被引用最多的作者，学术论文 Saliency detection: A spectral residual approach（发表于 CVPR）、Image signature: Highlighting sparse salient regions（发表于 IEEE transactions on pattern analysis and machine intelligence ）在学术领域具有重要影响。

InfoQ：您在大三发表的论文使您成为华人年轻 AI 学者里单篇论文引用数最高的人，据说甚至超过很多名校教授，您如何做到的？能说说这里的故事吗？

侯晓迪：论文第一次投就中，最大原因必须是运气好！学术会议的审稿的随机性太高，哪怕 CVPR 这样的顶级会议也是如此。审稿人一言不合就把 paper 据掉的血泪故事听过太多（当然，也亲身体验过）。

文章之所以高引，最大的原因是简单且有效。整个算法只有 5 行代码，大概是 CVPR 史上最短的代码实现了。我的 5 行代码直接写在了论文里，花一分钟抄下来就能获得很不错的效果（截止 2012 年，算法的准确率在公开 benchmark 上 top 3），大家自然喜欢用。

至于说要想本科发顶会论文，拼的就是投入——全身心的极端的投入。从 06 年开始直到 08 年毕业，我一直过着这样的生活：吃住在实验室；翘掉除体育之外的全部文化课；没有节假日，日均工作时间大于 16 小时；每天无论是自己吃饭走路还是和实验室同学讨论，我的世界就只有“视觉的计算原理”这一件事。

InfoQ：在加州理工读完博士后，是什么原因诱使您选择创业呢？

侯晓迪：对我而言，创业是早在读 PhD 之初就已经决定了的。我希望能够用更先进的生产关系，试着冲破玻璃天花板，解决一些学术圈本身解决不了的问题。

在外人看来，Caltech 是个标准的 faculty 的摇篮。但其实，沐浴在加州的资本阳光下，在校内跨领域跨学科合作浪潮的鼓动下，我校毕业生的创业比例却高得吓人。比如我所在的 Computation & Neural Systems 系，上下三届 20 位同学中就有 4 个人选择毕业后直接创业。

InfoQ：请问基于图片的嵌入式原生广告投放服务落地难点在哪里？对于图像识别 SaaS 的未来技术趋势，您有何看法？

侯晓迪：实验室层次的“work”，和实验室产品层次的“work”有很大差别。在媒体的渲染下，大家都以为 deep learning 是个已经解决的问题。但其实， deep learning 解决得好且非常容易上手的，绝大部分都与 ImageNet classification problem 类似（分类清晰，训练数据量大，对整张图片给唯一标签）。在实际中，我们经常会遇到训练数据不够，训练和测试数据差别太大，类别不均衡，类间差异太小，一张图对应多标签，图片中物体较小……这些差异在外行看来似乎无足轻重，但是都会对 deep learning 的分类结果产生重大影响。这就导致了——产品经理每次提出来的一个新问题，都还需要算法工程师做各种量身定制，才能让 deep learning 跑出还不错的结果。

在这个方面，我们的终极目标是让产品经理拖拖鼠标，就能部署图森的深度学习系统。所以图森的 SaaS 平台看起来平淡无奇，但其实里面包含了大量的算法自适应黑科技。

InfoQ：图森车型识别准确度达到多少，是否考虑过开源的框架和开源的数据集？

侯晓迪：车型识别准确率，在我们自己的数据上大概是 97%。

图森一直积极参与开源。我司首席科学家王乃岩同学就是 MXNet（目前最先进、速度最快的深度学习开源框架）的核心成员之一。我们长期与 MXNet 合作，提交了大量的开源代码，是 MXNet 最大的贡献单位。

InfoQ：请问有 lidar 和无 lidar 优缺点是什么？他们的可靠性差别有多大？图森是如何选择的？

侯晓迪：信息量非负，多加任何传感器，肯定不会帮倒忙。哪怕该信息已经可以通过其他渠道获得，加入后也可以起到交叉校验、降低噪音等功能。

通过发射激光，LiDAR 可以很准确地测出光朝着某个方向前进，走多远会碰到障碍物。这个信息虽然很有用，但也不过是自动驾驶千里长征的第一步。光靠分析点的距离，我们并不能直接读出一坨点云对应的是什么物体，物体如何运动；更无法猜出汽车牌照、车道线标记、交通标志内容这些无法反映在 3D 点云上的信息。而且，一旦遇到下雨下雪或者重度雾霾这种会干扰激光的场景，LiDAR 都会罢工。

LiDAR 的好处是，可以一步跨越 3D 测距这个非常难的问题，从一个比较容易的起点开始做自动驾驶。

我司没有用 LiDAR，主要的考虑是成本。今天 32 线 LiDAR 的市价是 8 万美元，在三年后，LiDAR 的成本会不会是自动驾驶普及的最大拦路虎？这个问题现在当然没人知道，图森选择的道路是，宁可从比较难的起点多花些功夫，做我们擅长做的事（不借助 LiDAR，直接基于机器视觉研发算法），也不要让我们的商业化之路受制于我们无法控制的事情。

InfoQ：最近 tesla 出现的识别失败导致的车祸事故可以避免吗? 或者误识别的概率多大，以 tesla 最近的车祸场景为例？针对辅助驾驶 / 无人驾驶有哪些算法上的改进?（是否有论文或者专利？）

侯晓迪：首先，Mobileye 的 EyeQ3 本身只是一个辅助驾驶系统。但是市场接受 TESLA 的概念的时候，是作为自动驾驶来炒作的。这相当于 TESLA 提前消费了大众对自动驾驶这项技术的信任。这是很糟糕的事情。

其次，小概率事件不意味着它绝对不会发生，所以哪怕是一百年后，我相信自动驾驶的车祸事故也不会 100% 完全避免。所以我在这里只谈谈现行系统的问题。

当前的模式识别学术界（以及衍生自学术界的工业界）过度地以“正确率”作为单一的优化目标。一方面大家都知道，算法正确率越高，进一步攀升的难度也就越大；另一方面，却很少有人关注“如果识别错了怎么办”这一问题。通用的做法是错一次就扣一分，不管你是没看到一辆近在眼前的大卡车，还是把路旁的兔子识别成了狗。

在图森，我们一直非常强调的一项技术积累是 self-consciousness of AI——即，我们的算法不但需要进行各种识别，还需要对“自己是否识别对了”进行预估。从而进一步提升系统可靠性。

我们申请了一些专利，也有论文发表。

InfoQ：您对最近开源的 comma.ai 的有何看法？

侯晓迪：comma.ai 是典型的深度学习福音派。这种思路一般称作 end-to-end learning，认为只要把大量输入（摄像头拍摄画面）输出（油门角度、方向盘力度）数据扔给深度神经网络进行训练，就能教会机器如何驾驶。所有的算法的问题，最终都可以转化为训练数据的问题，并乘着大数据的东风迎刃而解。

这个想法听起来很棒。但实际操作起来却隐患重重。当系统碰到训练集里没有的突发情况时，谁也无法保证会发生什么。其实 end-to-end 的问题并不是第一天才发现，业界很多人都尝试过，并汇报了类似结果。比如今年 GTC 16 上，NVidia 也介绍了他家的 end-to-end driving system，一个最大的特点是，如果一切在预料中，汽车可以很神奇地保持行进路线；但只要稍微偏离，错误变会积累，偏差越来越大。换言之，系统不具备把自己从未知的意料之外的状态中修正回来的能力。

相比来说，我司并不反对 deep learning，但是我们坚持认为不能简单粗暴地把 deep learning 等价于 machine learning，因为这种“未知的意料之外”是无论积累多少训练数据都还是会存在的。接着我刚才讲的 self-consciousness of AI，我们需要让算法发现自己的错误，并将自我纠错以先验的形式加入到系统中来。想做到这一步，还时需要回过头来借助许多传统的，非 deep 的 machine learning 方法。

另外，comma.ai 已经公布的代码和数据都很业余，充其量是研究生课程《自动驾驶》的期末课程作业，跟工业级算法系统完全没有可比性（可能也正因此，comma.ai 才舍得将其开源吧）。

InfoQ：对于智能驾驶，您觉得是应该以改进算法为主还是以积累驾驶数据训练优化为主？对于在中国，普及实现自动驾驶主要难点有哪些？是否存在“中国特色”？

侯晓迪：改进算法和积累驾驶数据训练优化是一对相辅相成的过程，缺一不可。我认为一个健康的商业模式一定会同时促进这两者。

在中国做自动驾驶，一个难点在于很多公开的学术圈数据集都是国外采集的（德国最多）。另一个难点是由于政策原因导致测绘数据的不完整。这两点会对没人手也没钱的学术工作者和超早期创业团队增加一些麻烦。我也确实见过有几家国内公司，为了给自己强行造壁垒，每次在谈到 Mobileye 的时候，都拿中国马路上常见的超载大货车说事儿。但说实话，只要 Mobileye 想把有中国特色的大货车纳入到他们的平台里，从采数据到训练 / 迁移模型，分分钟就能做好，根本不会有什么战略壁垒。

算法的迁移和泛化相比整套系统，只是非常小的一部分工作量。更何况到了产品层，各家肯定都是自己在准备数据。所以自动驾驶各家比拼到最后，还是得硬碰硬。

你问如果 Mobileye 要和我们比一比？比就比！谁怕谁？！谁怕谁？！

创作场景

专访图森侯晓迪：在中国做自动驾驶的美好前景与难点