本文为 Robin.ly 授权转载,文章版权归原作者所有,转载请联系原作者。
Robin.ly 是立足硅谷的视频内容平台,服务全球工程师和研究人员,通过与知名人工智能科学家、创业者、投资人和领导者的深度对话和现场交流活动,传播行业动态和商业技能,打造人才全方位竞争力。
2019 年 10 月 1 日据美国媒体 CNBC 报道,电动汽车公司特斯拉(Tesla)正在收购硅谷计算机视觉初创企业 DeepScale,助力打造真正的无人驾驶汽车。DeepScale 是 2015 年成立于硅谷的人工智能初创公司,致力于为边缘设备提供先进的高效感知功能,帮助汽车制造商使用低功率处理器,来驱动非常精确的计算机视觉系统。
DeepScale 被收购前,该公司首席执行官兼联合创始人 Forrest Iandola 接受 Robin.ly 独家专访,分享了他的研究和创业历程、以及 DeepScale 的技术优势。
Forrest Iandola 在美国硅谷接受 Robin.ly 专访
Forrest 在加州大学伯克利分校获得了电子工程和计算机科学博士学位,重点研究深度神经网络。他最受瞩目的成果包括深度学习基础设施,FireCaffe 以及深层模型,如 SqueezeNet 和 SqueezeDet。他在此基础上于 2015 年联合创立了 DeepScale 公司。Forrest Iandola 于 10 月 1 日正式宣布加入特斯拉,出任资深机器学习科学家。
DeepScale 的技术优势
Margaret Laffan:你还在加州大学伯克利分校攻读博士学位时就创立了 DeepScale。能介绍一下这家公司吗?
Forrest Iandola:
在技术方面,我们专注于在不影响性能的前提下打造能够植入微型设备的神经网络,将其作为核心产品安置在低端汽车上。针对客户,我们的主要目标是建立计算机视觉系统,以帮助汽车了解自身所处的环境。
在处理平台方面,我们可以在非常廉价的视频 GPU 上运行大量这类产品,取代自动驾驶汽车原型通常拥有的包含大量 GPU 的完整服务器主干。基于计算机视觉的深度神经网络推理能力,以及单个服务器之类的小型设备,我们可以复制很多功能。
我们还可以采用以前在单个服务器上运行的内容,并将其一直缩小到比 NVIDIA 制造的最小的设备还要小的规模,如最大的汽车芯片公司之一瑞萨(Renesas)制造的非常小的张量处理单元设备。这些设备与我们平时购买的最小视频设备相比,成本更低,占用的空间更小。
图片来源:DeepScale
博士研究对创业的影响
argaret Laffan:你之前在伯克利的研究是如何影响 DeepScale 的?
Forrest Iandola:
我在伯克利读书的时候对两个方面的研究非常感兴趣,并行计算和计算机视觉。Kurt Keutzer 是我的博士导师,他的主要研究方向包含如何提高设备运行速度,以及机器学习和计算机视觉。在某个阶段,我们可以改变底层实现,增加并行性,优化计算机视觉模型和神经网络的运行速度。随后我们就可以改变神经网络本身的设计,减少内存使用和计算量以及进行细节上的调整。
我们最初尝试的是当今流行的神经架构搜索。我们对它进行了优化,选择了一个类似于 AlexNet 的搜索空间,这是一个四五年前非常受欢迎的模型,但我们没有任何有趣的发现。我们意识到需要一个更好的神经架构搜索起点和搜索空间,这时我发现了一个可以用来进行练习的模型,即今天的 SqueezeNet。我们改变了神经网络的所有维度,让计算机自动进行调整。我们的一些初步结果非常好,也引起了工业界极大的兴趣。汽车行业的人找到了我们,希望我们将他们已有的高性能神经网络部署在相对低端的设备上。
DeepScale 诞生始末
Margaret Laffan: 你和 Keutzer 教授共同创立了 DeepScale。我们知道 Keutzer 教授在伯克利成就斐然,他同时也担任许多创业公司的投资者和顾问。能介绍一下你们创立 DeepScale 的过程吗?
Forrest Iandola:
这实际上并不是我们创建的第一家公司。我和 Kurt 不仅具有共同的研究兴趣,也都对创业抱有热情。他曾经是上市公司 Synopsis 的早期员工,首席技术官和投资人,也为其他创业公司提供建议。
我们考虑了很多不同的项目,曾经还考虑过在数字广告领域创办公司,比如在 Youtube 视频中投放广告。我们取得了一些进展,但最终没有继续下去。在这个过程中,我曾经不止一次想要退出博士研究项目,但 Kurt 说服了我转向与创业相关的项目,比如将 AI 应用于边缘设备上。那段时间的生活非常充实,让我受益匪浅。
DeepScale 团队合影,来源:Forrest Iandola
深度神经网络
Margaret Laffan:2016 年,边缘计算并不像现在这样流行。是什么启发了你研究那些用于加速器/处理器的深度神经网络的呢?
Forrest Iandola:
我认为很多需要大量计算的技术,比如神经网络,往往是在一个可以使用大量计算的环境中开展的,比如服务器群,能够启动挖掘社交媒体数据和组织网络信息等类似的应用。我认为 Google 和 Facebook 这样的公司都经历过这样的阶段,并在其中投入了大量资金。但是大多数用户与他们的设备交互时,通常并不需要用到云技术。如果人们每天都在智能手机上使用神经网络,就需要在我们的数据管道和云计算时间上承担大量的费用。因此,长期以来我们的愿景就是将在服务器端运行的技术,在嵌入式设备或智能手机上实现相同的结果。
Margaret Laffan: 你最近的工作利用 SqueezeNAS 实现了边缘硬件上的深度神经网络部署。能解释一下 SqueezeNet 和 SqueezeDet 之间的区别吗?
Forrest Iandola:
SqueezeNet 是我们手动设计的神经网络,目标应用是图像分类,在后期也可以将其重新定位并应用于其他任务。SqueezeDet 是专为对象检测设计的,在理解图像的内容,识别图中的对象和位置方面有非常不错的表现。
在谷 Google 早期的工作中,例如基于强化学习的神经架构研究需要大量时间来搜索正确的模型,通常会花费数千天的 GPU 或 TPU 时间。而 SqueezeNet 作为研究界关于神经架构搜索的最新研究成果之一,只需要大概 10 个 GPU 日就能在一些具有挑战性的任务中击败人类。
图示:SqueezeNAS 优势,来源:Forrest Iandola
最近我们看到的是:首先,深度神经网络运行良好,于是出现了比以往更多的计算机视觉问题。其次,很多大公司以及初创公司都在开发不同的深度神经网络处理器。根据需要解决的具体问题,神经网络的设计也要做出相应的改变。这项工作对于人类来说正在变得越来越棘手。
自动驾驶汽车的变革
Margaret Laffan: 我们再来谈谈自动驾驶汽车。在过去几年中,人们对自驾车的关注日益升温,这个领域也在快速发展。作为这一过程的见证人,你认为这个领域发生了什么样的变革?
Forrest Iandola:
自动驾驶经历了几次加德纳技术成熟曲线( Gartner hype cycles),最早可以追溯到 80 年代后期。在过去的两三年里,人们已经拥有了更成熟的系统。我认为最近的迭代开始于 2010 年,Google 开始投资自动驾驶,并在 2015、2016 年左右达到高峰。但是当你试图将该产品扩展到数百万用户时,就会开始发现很多边缘案例在设计阶段并没有被考虑在内。为了解决这个问题,我们就必须指定要解决的具体问题以及技术的特定使用环境,这也导致了做全自动驾驶的人对地理围栏的要求更加精确,从而限制了车辆当前的操作范围。
Margaret Laffan:DeepScale 希望解决自动驾驶中的什么问题?
Forrest Iandola:
我们正在努力解决的核心问题是帮助汽车了解所处的环境,包括车道的位置、交通标识和其他车辆的位置等等。有人称之为计算机视觉,有人称之为感知。我们通常会为我们的客户、汽车制造商、一级供应商在设计运动规划系统和控制系统时提供必要的数据。
特斯拉无人驾驶示意图,图片来源:Tesla
自然语言处理架构的演变
Margaret Laffan:我们也想谈谈自然语言处理,因为我知道你已经在这个领域取得了一些成果。你如何看待像 XLNet 这样的自然语言处理架构的发展?
Forrest Iandola:
这是个很好的问题。在循环网络和 LSTM 的各种方法出现之后,BERT 获得了最引人注目的成果。BERT 使用的是注意力模型,而不是循环模型。事实上 2014 年左右的神经图灵机( Neural Turing Machines)可能是一个很好的开端。但 BERT 表明了可能有数百种不同的自然语言处理方面的重要任务,也存在至少 10 种非常流行,方法各异的解决方案,而注意力网络的运行结果相对比较令人满意。
现在我注意到了两个趋势:一个是我们在注意力网络的设计上有很多的探索,比如 XLNet 的注意力网络设计就略有不同,应该还有其他一些类似的设计。另外,我认为注意力网络群包含不同的资源等级,相应也有非常宽泛的成本跨度。目前我们在大多数情况下只能选择非常昂贵的网络。我还注意到,每个面临着自己的自然语言处理问题的人都能看到,在改善结果或改变方法的层面,注意力网络可以为他们做些什么。
神经图灵机( Neural Turing Machines)模型图示,来源:Google DeepMind
对深度学习未来的展望
Margaret Laffan:基于当前的发展,能否为我们展望一下接下来可能会发生什么?
Forrest Iandola:
今天深度学习的三大应用领域是计算机视觉,或更广泛的说就是基于图像和雷达扫描数据了解所处的环境。这是计算机视觉相关的工作。然后是语音识别,音频语义分析。还有就是自然语言处理,文本理解。
这些应用各自都处于非常不同的阶段。计算机视觉实现了突破,真正开始迁移到深度神经网络并开始解决我们的许多问题,是在大约 2012、2013 年,AlexNet 赢得了 ImageNet 竞赛的时候。在这之后,大量从事计算机视觉工作的人开始尝试用深度神经网络解决自己的问题,也获得了大量优质的结果。随后的三到四年里,网络的精度提高了很多,在今天也仍然在不断改善,人们开始思考如何才能在低成本的环境中高效运行这类网络:先优化,再微型化。
我认为语音识别领域的很多研究都是在 Google 和百度公司内部进行的,因为语音的标签数据非常非常昂贵。关于语音识别的开放性研究屈指可数,通常已经转移到工业界封闭的环境中进行,所以很难对其进展进行评估。自然语言处理技术的确在几年前就已经超越某种形式的深度神经网络、递归神经网络和 LSTM,其中的许多核心问题在过去 12 个月中随着 Google 算法 BERT 的兴起而得到了大幅度提升。
对于 DeepScale 来说,我希望在若干年后,绝大多数车辆会因为我们的技术更安全的行驶。那么在接下来的三到五年里,我希望我们的技术能够被一些汽车经销商采用,并且曾经针对高端汽车的设计也能出现在中低端汽车中。
Robin.ly 主持人 Margaret Laffan(图左)和 Forrest Iandola(图右)
对创业者的建议
Margaret Laffan:你在创业的过程中遇到过什么困难?对于想创业的工程师和研究人员有何建议?
Forrest Iandola:
计算机领域的人可能会告诉你,存在一个阿姆达尔定律( Amdahl’s Law),即你的程序运行速度是受限于最慢的部分,这类似我们常说的“木桶效应”。这个结论是显而易见的。我认为在创办 DeepScale 的过程中,我们的短板是招聘,或者寻找合适的客户,或者能否快速运行神经网络。所以我认为成为领导者的一个重要部分就是弄清下一个瓶颈是什么,以及如何解决。
本文转载自 Robinly 微信公众平台。
原文链接:https://mp.weixin.qq.com/s/Jrq5ARLNqchUsLlijzkWFw
评论