仅在美国，就有300万人因行动障碍而无法走出家门。能够实现自动化远距离导航的服务机器人可以让行动不便的人更加独立，如为他们运送日常用品、药品和包裹等。研究表明，深度强化学习擅长将原始感官输入映射到动作，例如学习抓取物体和机器人运动，但强化学习代理通常缺乏在无人类帮助下对远距离导航所需的安全物理空间的理解，以及适应新空间的能力。

为解决这个问题，谷歌的研究人员发表三篇论文，探讨了将深度强化学习与远距离规划相结合，以实现适应性更强的机器人自治。实验证明，通过自动化强化学习、PRM-RL等方法，机器人不但导航距离增大，且导航的成功率提高了2-3倍。

在最近的三篇论文《使用AutoRL学习端到端导航行为》、《PRM-RL：通过结合强化学习和基于采样的规划实现远距离机器人导航任务》，以及《使用PRM-RL进行远距离室内导航”》中，我们通过将深度强化学习与远距离规划相结合来研究适应性更强的机器人自治。我们训练本地规划代理执行基本的导航行为，安全地通过较短距离而不会与移动的障碍物发生碰撞。本地规划代理采用噪声传感器观测，例如测量障碍物距离的一维激光雷达，以及输出机器人控制的线性和角速度。我们使用AutoRL训练本地规划代理进行模拟，AutoRL是一种自动搜索强化学习奖励和神经网络架构的方法。尽管10到15米的距离范围有限，但是本地规划代理可以很好地迁移到真实机器人和新的环境中。这使我们能够将其用作大范围空间导航的构建块。然后，我们构建了路线图，其中节点是位置，且只有当本地规划代理能够可靠地通过噪声传感器和控制很好地模拟真实机器人时，边缘才能连接节点。

自动化强化学习（AutoRL）

在我们的第一篇论文中，我们在小型的静态环境中训练本地规划代理。然而，使用标准深度强化学习算法（例如深度确定性策略梯度（DDPG））进行训练会带来一些挑战。例如，本地规划代理的真正的目标是达成目标，这代表了稀疏的奖励。在实践中，这需要研究人员花费大量时间来迭代和手动调整奖励。研究人员还需要在不确定最佳实践的情况下对神经网络架构做出决策。最后一点，像DDPG这样的算法学习并不稳定，并且经常遭遇灾难性的遗忘。

为了克服这些挑战，我们让深度强化学习训练自动化。AutoRL是一个深度强化学习演化的自动化层，它使用大规模超参数优化来搜索奖励和神经网络架构。AutoRL分两个阶段，奖励搜索和神经网络架构搜索。在奖励搜索期间，AutoRL会同时训练一群DDPG代理并迭代，每个代理的奖励函数稍有不同，为实现本地规划代理的真正目标——达到目的而进行优化。在奖励搜索阶段结束时，我们会选择可以最大几率引导代理达成目的的奖励。在神经网络架构搜索阶段，我们重复这个过程，这次我们使用选定的奖励并调整网络层，优化累积奖励。

使用奖励和神经网络架构搜索自动化强化学习。

但是，这个迭代过程意味着AutoRL不具有样本效率。训练一个代理需要500万个样本；训练100个代理迭代10次需要50亿个样本，这相当于训练32年！但这样做的好处是，在AutoRL之后，手动训练过程是自动化的，DDPG不会遭遇灾难性的遗忘。最重要的是，由此产生的政策质量更高——AutoRL政策对传感器、执行器和本地化噪声具有健壮性，并且可以很好地适用于新环境。在我们的测试环境中，最佳策略比其他导航方法的成功率高26％。

AutoRL（红色）在之前未看见过的建筑物中进行短距离（最多10米）导航的成功率。与手动调节的DDPG（深红色）、人工势场（浅蓝色）、动态窗口法（蓝色）和行为克隆（绿色）的对比。

虽然这些策略仅执行本地导航，但它们可以对移动的障碍物具有健壮性，且可以很好地迁移到真实机器人，即使在非结构化环境中也是如此。虽然他们只受到静态障碍物模拟训练，却可以有效地处理移动物体。下一步，我们将把AutoRL政策与基于抽样的计划相结合，以扩大其覆盖范围并实现远距离导航。

使用PRM-RL实现远距离导航

基于抽样的规划代理通过近似机器人运动来进行远距离导航。例如，概率路线图（PRM）样本机器人构成并将它们与可行的过渡连接起来，创建路线图，捕捉机器人在较大空间中的有效运动。在我们的第二篇获得了ICRA 2018服务机器人最佳论文的文章中，我们将PRM与手动调整的基于强化学习的本地规划代理（不使用AutoRL）相结合，在本地训练机器人，然后将其迁移到不同的环境。

首先，对于每个机器人，我们在通用模拟训练环境中训练本地规划策略。接下来，我们在部署环境的平面图上构建一个与该策略相关的PRM，称为PRM-RL。对于其他我们想要在建筑物中部署的所有机器人，都可以使用相同的平面图。

为了构建PRM-RL，只有当基于强化学习的本地规划器（它能很好地表示机器人噪声）能够可靠且一致地导航时，我们才连接采样节点。这是通过蒙特卡罗模拟完成的。生成的路线图经调整可适用于所有类型和几何形状的机器人。具有相同几何形状，但传感器和执行器不同的机器人的路线图将具有不同的连接性。由于代理可以在拐角处导航，因此可以包含模糊的节点。而由于传感器噪声，靠近墙壁和障碍物的节点不太可能连接到路线图中。在执行时，强化学习代理在路线图路径上导航。

使用每个随机选择的节点对进行3次蒙特卡罗模拟构建的路线图。

最大的地图是288米*163米，包含近700,000条边缘，300名工人用4天多时间收集，需要11亿次碰撞检测。

第三篇论文对原始PRM-RL进行了一些改进。首先，我们用经过AutoRL训练的本地规划代理取代手动调整的DDPG，从而改善远距离导航。其次，增加了机器人在执行时使用的同步定位和映射（SLAM）地图，作为构建路线图的来源。由于SLAM地图噪音很大，这一变化弥补了“sim2real gap”，这是机器人技术中的一种现象，即模拟训练的代理迁移到真实机器人时性能下降。我们的模拟实验成功率可以达到真实机器人实验相同水平。最后，我们添加了分布式路线图构建，从而产生了包含多达700,000个节点的超大规模路线图。

我们使用AutoRL代理评估了该方法，使用比训练环境大200倍的办公室楼层地图构建路线图，在20次试验中成功率至少达到 90％。我们在远超本地规划的距离——100米内将PRM-RL与各种不同方法进行了比较。PRM-RL的成功率是baseline的2到3倍，因为节点已根据机器人的能力进行了适当的连接。

在几座建筑物中导航超过100米的成功率。第一篇论文--AutoRL仅限本地规划代理（蓝色）；原始PRM（红色）；路径引导的人工势场（黄色）；第二篇论文（绿色）；第三篇论文 - 使用AutoRL（橙色）的PRM。

我们在多个真实机器人和真实建筑工地上测试了PRM-RL。一组测试结果如下所示，除了在非常复杂的区域附近和SLAM地图的边缘，机器人的表现都非常好。

机器人实验 ## 结论自主机器人导航可以大幅提高行动不便人士的独立性。我们可以通过开发适应性强的机器人自动化来实现这一目标，包括能够使用已有信息在新环境中进行部署的方法。通过AutoRL自动学习基本的短程导航行为，并将学习的策略与SLAM地图结合起来构建路线图，我们实现了这个目标。这些路线图由通过边缘连接的节点组成，机器人可以遍历这些节点。结果显示，经过训练的策略可以适应不同的环境，并且可以生成针对特定机器人定制的路线图。

原文链接： https://ai.googleblog.com/2019/02/long-range-robotic-navigation-via.html

创作场景

谷歌“跑腿”机器人实现远距离导航，成功率提高 2-3 倍