写点什么

预测技术已经超越感知,成为无人驾驶领域最大的挑战

  • 2020-02-27
  • 本文字数:2413 字

    阅读完需:约 8 分钟

预测技术已经超越感知,成为无人驾驶领域最大的挑战

无人驾驶技术包含了感知、决策和控制等技术,目前,感知技术已经取得了阶段性成果,但是,在复杂的动态环境中运行的无人驾驶汽车,仅仅有感知还是远远不够的。无人驾驶要想“更上一层楼”,就需要在新的领域发力研究。这个领域是什么呢?那就是:预测。InfoQ 中文站翻译了无人驾驶技术公司 Voyage 的联合创始人兼 CEO 亲自撰写的这篇文章,解读无人驾驶领域未来需要重点深耕的技术,以飨读者!

本文最初发表在 Oliver Cameron 的个人博客,经原作者授权,InfoQ 中文站翻译并分享。


为什么预测已经超越感知,成为该领域最大的挑战?


在过去的十年里,无人驾驶机器学习社区内的大多数讨论都集中在目标检测(object detection)上。动态目标对所有安全导航至关重要,我们该如何提高无人驾驶汽车检测和跟踪这些动态目标的能力呢?2010 年,在深度学习普及之前,感知是无人驾驶汽车能力的主要限制。对于一台 3 吨重的机器来说,有着如此之高的误报率和漏报率,都是不可接受的。最能说明这一点的是 ImageNet 的分类正确率,在这方面,最先进的解决方案在 2010 年仅达到 50% 的正确率(相比之下,今天的正确率为 88%)。尽管 ImageNet 的分类与当前最先进的目标检测技术相提并论,但它确实可以作为计算机视觉进步的一个代表。



两年后的 2012 年,AlexNet 成为首批利用卷积神经网络进行深度学习的 ImageNet 竞赛的参赛者之一。AlexNet 也许是计算机视觉领域最有影响力的论文,2012 年就在 ImageNet 上实现了当时最先进的正确率。


深度学习,无论是应用于激光雷达、摄像头,还是雷达,都在 2014 年左右开始涉足无人驾驶技术。Google 最著名的一个例子是,它的无人驾驶汽车碰到了一名老太太坐着电动轮椅在车辆前面转来转去追赶一只鸭子的场景,当即就做出了躲避的行为,这一例子说明了感知技术从 2010 年发展到现在已经走了多远。



今天,用于感知的深度学习在无人驾驶汽车中已经很普遍了,我们也因此不断看到性能的惊人提升。去年以来,像 VoxelNetPIXORPointPillars 这样的网络推动了我们在计算机视觉方面的思考。尽管我们不应认定现在的机器人已经实现了完美的感知能力,但计算机视觉领域的发展如此之快,可以说,它现在已经不再是无人驾驶汽车商业化应用的主要障碍了。


注:我有严重的偏见,但以上的说法,是基于一款具备多钟传感器模式的无人驾驶汽车,包括一个飞行时间传感器,它会返回物理上准确的深度信息,并提供给感知模型。对不起了,特斯拉!


既然感知已经不再是无人驾驶技术的星星之火,那下一步是什么呢?预测!


既然我们可以安全地探测到我们周围的关键物体,那么,我们现在就必须预测它们下一步要做什么。正确的预测意味着我们将在正确的时间执行正确的操作,同时考虑周围人们的行动。错误的预测意味着我们可能会将自己推向危险的境地。作为人类,我们使用数以千计的环境输入来直观地进行这种预测。


正如我在第一篇关于无人驾驶汽车的强化学习和模仿学习的博文中所讨论的那样,让我们来看看机器人无人驾驶汽车如何处理没有保护的左转弯。


预测问题是无保护左转弯实例化的核心问题,该问题也是最困难的。在执行左转弯之前,无人驾驶汽车必须预测周围所有动态目标的未来动作,这项任务比无人驾驶中的其他问题需要更多的智能。人类驾驶员虽然不完美,但在很大程度上只需依靠一般智力、现实世界的驾驶经验和社会线索(如轻推或手势),就能够成功执行无保护的左转弯。

尽管机器比人类有着明显的优势(如 360°远程视野),但与人类相比,无人驾驶技术的传统预测可能还相当原始。

  1. 感知器模块输出无人驾驶汽车特定半径内的一组目标检测(例如车辆、行人),然后将其输入到预测模块。

  2. 预测模块使用当前(例如方向、速度)和先前的观察结果来生成每个目标在接下来 5 秒内可能会做什么动作的单独预测。

  3. 通过将所有这些单独预测输入到一个算法中,就可以生成关于无人驾驶汽车可以执行的最安全动作的假设。

  4. 无人驾驶骑车开始规定的动作,并每 100 毫秒重新评估该决策。


你可以想象得出,这种机器人的方式会导致不舒服甚至潜在的危险驾驶行为,在人口稠密的城市环境中尤为如此。在过去的几年里,我们看到了深度学习方法进行预测的实验爆炸式增长。这些方法有显著提高预测正确率的潜力,能够将它们从机器人转变为类似人类的预测。


用数据驱动的方法解决这些原始的预测,与 2010 年代中期深度学习如何取代经典感知的方式有着惊人的相似之处。


下面是一些实际应用的例子。


  • Cruise 的感知工程经理进行了一次精彩的演讲,讲述了他们是如何将学习预测作为一个分类问题来处理的。我对他们构建的工具特别感兴趣,除了他们场景自动标记的“车队学习”(Fleet learning)的能力之外,他们还构建了支持快速实验的工具。

  • Uber 分享了他们在 DRF-Net 上的工作,该网络增强了行人预测的能力:“大量实验表明,我们的模型表现出高可能性、低误差、低熵和高多模态,优于几个强基线。DRF-Net 离散预测的强大性能对于基于成本和约束的机器人规划提供了很好的前景。”

  • Apple 发表了一篇关于强化学习的新论文,题为《最坏情况下的策略梯度》(Worst Cases Policy Gradients):“构建智能系统的关键挑战之一,是开发在复杂环境中做出健壮且安全的连续决策的能力。”

  • isee 在 2019 年的 CVPR 峰会发表了关于学习预测方法的研究成果:“这种 MAT 编码自然地处理具有不同数量的动态目标和场景,并通过 AMT 上的卷积运算来预测场景中所有动态目标的轨迹,并且计算复杂度与动态目标的数量呈线性关系。”


虽然预测目前还没有达到它所需的性能要求,但我很清楚,我们将看到数据驱动方法在预测性能方面上的巨大飞跃,就像深度学习对经典感知的影响一样。这些即将到来的飞跃,无疑将极大改善无人驾驶汽车的决策能力,从而为乘客带来更安全、更顺畅的乘车体验。


作者介绍:


Oliver Cameron,Voyage 联合创始人兼 CEO。Voyage 致力于兑现无人驾驶汽车的承诺。


原文链接:


https://olivercameron.substack.com/p/the-next-leap-in-self-driving-prediction


2020-02-27 14:002523

评论

发布
暂无评论
发现更多内容

React基础知识入门

小白Coding日志

前端 React

利用法线贴图渲染逼真的3D老虎模型

3D建模设计

3D渲染 材质贴图 纹理贴图 材质纹理 材质编辑

创新释放:Atlassian 人工智能引领现代工作

跟YY哥学Jira

人工智能 项目管理 Jira Confluence ChatGPT

一个 41 岁老程序员的 2023 年总结 - 利用 AI 延长自己的编程寿命

汪子熙

人工智能 AI 总结思考 ChatGPT 2023年

苹果电脑虚拟定位:AnyGo中文破解 for mac 修改手机定位就是如此简单

Rose

mac软件下载 AnyGo for Mac AnyGo破解版 虚拟定位工具 AnyGo中文版下载

Python 案例实训教学,课程展示及结课存档优化|ModelWhale 版本更新

ModelWhale

人工智能 大数据 canvas 教学实训 模型服务

火山引擎的AI语音技术

淼.

使用粗糙贴图制作粗纹皮革手提包3D模型

3D建模设计

3D渲染 纹理贴图 模型渲染 材质纹理 材质编辑

如何使用玻璃材质制作钻石3D模型

3D建模设计

3D渲染 纹理贴图 模型渲染 材质纹理 材质编辑

公司敏感数据被上传Github,吓得我赶紧改提交记录

程序员小富

git

MCube动态化与原生工程结合最佳实践 | 京东云技术团队

京东科技开发者

前端 跨端 动态化 MCube

什么是API数据接口该怎么使用?

Noah

DAPP智能合约质押挖矿系统开发丨详情开发

l8l259l3365

【EMNLP 2023】基于大语言模型的复杂任务认知推理算法CogTree

阿里云大数据AI技术

矩阵起源与深圳大学达成专利开放认可合作,坚持科技是第一生产力

MatrixOrigin

分布式数据库 云原生数据库 MatrixOrigin MatrixOne HTAP数据库

提升淘宝商品详情搜索效率,看这篇API接口详解

联讯数据

深入探讨 Swagger Array:开发者的步步为赢指南

Liam

后端 开发工具 swagger API 文档 web 开发

高效挖掘数据价值,天翼云分析型数据库TeleDB For AnalyticDB申请出战!

极客天地

一文速览字节最新分布式操作系统KubeWharf

苏沐

运维 云原生 k8s 分布式操作系统 KubeWharf

现代皮质沙发材质编辑

3D建模设计

3D渲染 纹理处理 模型渲染 材质纹理 材质编辑

强大的系统活动监控器:iStat Menus 激活中文版最新

胖墩儿不胖y

系统监控工具 Mac电脑软件

OPPO ColorOS全球创客大赛总决赛在即 加速潘塔纳尔生态成型

极客天地

2023年,用友BIP持续发展,引领企业数智化

用友BIP

MatrixOne完成与麒麟软件服务器操作系统的兼容互认

MatrixOrigin

分布式数据库 云原生数据库 MatrixOrigin MatrixOne HTAP数据库

从0到100TB,MatrixOne助您轻松应对

MatrixOrigin

分布式数据库 云原生数据库 MatrixOrigin MatrixOne HTAP数据库

3D材质编辑:制作被火烧的木头

3D建模设计

3D渲染 材质贴图 纹理贴图 模型渲染 材质编辑

如何进行代码混淆?方法与常见工具介绍

Mint Blockchain,一个聚焦在 NFT 领域的 L2 网络

NFT Research

NFT\ NFTScan Layer 2

Vue3.0在软件开发中的能力展示

互联网工科生

Vue DOM vue3.0

预测技术已经超越感知,成为无人驾驶领域最大的挑战_文化 & 方法_Oliver Cameron_InfoQ精选文章