QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

谷歌“跑腿”机器人实现远距离导航,成功率提高 2-3 倍

  • 2019-03-01
  • 本文字数:3117 字

    阅读完需:约 10 分钟

谷歌“跑腿”机器人实现远距离导航,成功率提高2-3倍

仅在美国,就有 300 万人因行动障碍而无法走出家门。能够实现自动化远距离导航的服务机器人可以让行动不便的人更加独立,如为他们运送日常用品、药品和包裹等。研究表明,深度强化学习擅长将原始感官输入映射到动作,例如学习抓取物体和机器人运动,但强化学习代理通常缺乏在无人类帮助下对远距离导航所需的安全物理空间的理解,以及适应新空间的能力。


为解决这个问题,谷歌的研究人员发表三篇论文,探讨了将深度强化学习与远距离规划相结合,以实现适应性更强的机器人自治。实验证明,通过自动化强化学习、PRM-RL 等方法,机器人不但导航距离增大,且导航的成功率提高了 2-3 倍。


在最近的三篇论文《使用AutoRL学习端到端导航行为》《PRM-RL:通过结合强化学习和基于采样的规划实现远距离机器人导航任务》,以及《使用PRM-RL进行远距离室内导航”》中,我们通过将深度强化学习与远距离规划相结合来研究适应性更强的机器人自治。我们训练本地规划代理执行基本的导航行为,安全地通过较短距离而不会与移动的障碍物发生碰撞。本地规划代理采用噪声传感器观测,例如测量障碍物距离的一维激光雷达,以及输出机器人控制的线性和角速度。我们使用 AutoRL 训练本地规划代理进行模拟,AutoRL 是一种自动搜索强化学习奖励和神经网络架构的方法。尽管 10 到 15 米的距离范围有限,但是本地规划代理可以很好地迁移到真实机器人和新的环境中。这使我们能够将其用作大范围空间导航的构建块。然后,我们构建了路线图,其中节点是位置,且只有当本地规划代理能够可靠地通过噪声传感器和控制很好地模拟真实机器人时,边缘才能连接节点。

自动化强化学习(AutoRL)

在我们的第一篇论文中,我们在小型的静态环境中训练本地规划代理。然而,使用标准深度强化学习算法(例如深度确定性策略梯度(DDPG))进行训练会带来一些挑战。例如,本地规划代理的真正的目标是达成目标,这代表了稀疏的奖励。在实践中,这需要研究人员花费大量时间来迭代和手动调整奖励。研究人员还需要在不确定最佳实践的情况下对神经网络架构做出决策。最后一点,像 DDPG 这样的算法学习并不稳定,并且经常遭遇灾难性的遗忘。


为了克服这些挑战,我们让深度强化学习训练自动化。AutoRL 是一个深度强化学习演化的自动化层,它使用大规模超参数优化来搜索奖励和神经网络架构。AutoRL 分两个阶段,奖励搜索和神经网络架构搜索。在奖励搜索期间,AutoRL 会同时训练一群 DDPG 代理并迭代,每个代理的奖励函数稍有不同,为实现本地规划代理的真正目标——达到目的而进行优化。在奖励搜索阶段结束时,我们会选择可以最大几率引导代理达成目的的奖励。在神经网络架构搜索阶段,我们重复这个过程,这次我们使用选定的奖励并调整网络层,优化累积奖励。



使用奖励和神经网络架构搜索自动化强化学习。


但是,这个迭代过程意味着 AutoRL 不具有样本效率。训练一个代理需要 500 万个样本;训练 100 个代理迭代 10 次需要 50 亿个样本,这相当于训练 32 年!但这样做的好处是,在 AutoRL 之后,手动训练过程是自动化的,DDPG 不会遭遇灾难性的遗忘。最重要的是,由此产生的政策质量更高——AutoRL 政策对传感器、执行器和本地化噪声具有健壮性,并且可以很好地适用于新环境。在我们的测试环境中,最佳策略比其他导航方法的成功率高 26%。



AutoRL(红色)在之前未看见过的建筑物中进行短距离(最多 10 米)导航的成功率。与手动调节的 DDPG(深红色)、人工势场(浅蓝色)、动态窗口法(蓝色)和行为克隆(绿色)的对比。


虽然这些策略仅执行本地导航,但它们可以对移动的障碍物具有健壮性,且可以很好地迁移到真实机器人,即使在非结构化环境中也是如此。虽然他们只受到静态障碍物模拟训练,却可以有效地处理移动物体。下一步,我们将把 AutoRL 政策与基于抽样的计划相结合,以扩大其覆盖范围并实现远距离导航。

使用 PRM-RL 实现远距离导航

基于抽样的规划代理通过近似机器人运动来进行远距离导航。例如,概率路线图(PRM)样本机器人构成并将它们与可行的过渡连接起来,创建路线图,捕捉机器人在较大空间中的有效运动。在我们的第二篇获得了 ICRA 2018 服务机器人最佳论文的文章中,我们将 PRM 与手动调整的基于强化学习的本地规划代理(不使用 AutoRL)相结合,在本地训练机器人,然后将其迁移到不同的环境。


首先,对于每个机器人,我们在通用模拟训练环境中训练本地规划策略。接下来,我们在部署环境的平面图上构建一个与该策略相关的 PRM,称为 PRM-RL。对于其他我们想要在建筑物中部署的所有机器人,都可以使用相同的平面图。


为了构建 PRM-RL,只有当基于强化学习的本地规划器(它能很好地表示机器人噪声)能够可靠且一致地导航时,我们才连接采样节点。这是通过蒙特卡罗模拟完成的。生成的路线图经调整可适用于所有类型和几何形状的机器人。具有相同几何形状,但传感器和执行器不同的机器人的路线图将具有不同的连接性。由于代理可以在拐角处导航,因此可以包含模糊的节点。而由于传感器噪声,靠近墙壁和障碍物的节点不太可能连接到路线图中。在执行时,强化学习代理在路线图路径上导航。





使用每个随机选择的节点对进行 3 次蒙特卡罗模拟构建的路线图。



最大的地图是 288 米*163 米,包含近 700,000 条边缘,300 名工人用 4 天多时间收集,需要 1​​1 亿次碰撞检测。


第三篇论文对原始 PRM-RL 进行了一些改进。首先,我们用经过 AutoRL 训练的本地规划代理取代手动调整的 DDPG,从而改善远距离导航。其次,增加了机器人在执行时使用的同步定位和映射(SLAM)地图,作为构建路线图的来源。由于 SLAM 地图噪音很大,这​​一变化弥补了“sim2real gap”,这是机器人技术中的一种现象,即模拟训练的代理迁移到真实机器人时性能下降。我们的模拟实验成功率可以达到真实机器人实验相同水平。最后,我们添加了分布式路线图构建,从而产生了包含多达 700,000 个节点的超大规模路线图。


我们使用 AutoRL 代理评估了该方法,使用比训练环境大 200 倍的办公室楼层地图构建路线图,在 20 次试验中成功率至少达到 90%。我们在远超本地规划的距离——100 米内将 PRM-RL 与各种不同方法进行了比较。PRM-RL 的成功率是 baseline 的 2 到 3 倍,因为节点已根据机器人的能力进行了适当的连接。



在几座建筑物中导航超过 100 米的成功率。第一篇论文--AutoRL 仅限本地规划代理(蓝色);原始 PRM(红色);路径引导的人工势场(黄色);第二篇论文(绿色);第三篇论文 - 使用 AutoRL(橙色)的 PRM。


我们在多个真实机器人和真实建筑工地上测试了 PRM-RL。一组测试结果如下所示,除了在非常复杂的区域附近和 SLAM 地图的边缘,机器人的表现都非常好。



机器人实验


## 结论自主机器人导航可以大幅提高行动不便人士的独立性。我们可以通过开发适应性强的机器人自动化来实现这一目标,包括能够使用已有信息在新环境中进行部署的方法。通过AutoRL自动学习基本的短程导航行为,并将学习的策略与SLAM地图结合起来构建路线图,我们实现了这个目标。这些路线图由通过边缘连接的节点组成,机器人可以遍历这些节点。结果显示,经过训练的策略可以适应不同的环境,并且可以生成针对特定机器人定制的路线图。


原文链接:


https://ai.googleblog.com/2019/02/long-range-robotic-navigation-via.html



2019-03-01 16:404774
用户头像

发布了 98 篇内容, 共 65.2 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

Android菜鸟进字节跳动,居然是看了这个,Android技术篇

android 程序员 移动开发

RPC就好像是谈一场异地恋

博文视点Broadview

Android自定义View之游戏摇杆键盘实现(一),android开发计算器界面

android 程序员 移动开发

android进阶篇09、电量与网络优化简述,android内存优化方案

android 程序员 移动开发

Android进阶:最简单的方式实现自定义阴影效果,7年老Android一次坑爹的面试经历

android 程序员 移动开发

Android进阶:知识遗忘真的是程序员的通病吗?其实是这些新知识的学习方法你还没get到

android 程序员 移动开发

android自定义View——仿九宫格解锁,kotlin缺点

android 程序员 移动开发

重磅!四大行正在大规模内测数字货币App 可凭手机号完成转账

CECBC

Android达到什么水平才能顺利拿到 20k 无压力?,Android基础开发与实践

android 程序员 移动开发

android进阶篇11、crash监控与anr分析简述,vue双向绑定原理

android 程序员 移动开发

Android自动化页面测速在美团的实践,百度、阿里、滴滴、新浪的面试心经总结

android 程序员 移动开发

Android自定义view之模仿登录界面文本输入框(华为云APP)

android 程序员 移动开发

Android转场动画一说,android事件分发面试

android 程序员 移动开发

Android转战Web前端,靠着这份面试题和答案,一举拿下京东offer

android 程序员 移动开发

微信朋友圈的高性能复杂度分析

stars

架构训练营

Android自定义控件 _ 高可扩展单选按钮(再也不和产品经理吵架了)

android 程序员 移动开发

Android超实用最全面试大纲(四),2021大厂Android知识点总结

android 程序员 移动开发

Android进阶——Android跨进程通讯机制之Binder,okhttp读取信息kotlin

android 程序员 移动开发

Android网络请求心路历程,面试安卓工程师会问到那些问题

android 程序员 移动开发

Android自定义控件(神级)+MediaRecoder录音,android开发基础应用

android 程序员 移动开发

Android网络请求心路历程(1),2021Android开发现状分析

android 程序员 移动开发

Android老司机被打脸!Dialog 对应的 Context 必须是 Activity吗?

android 程序员 移动开发

Android自定义View播放Gif动画,ffmpeg音视频开发实战6下载

android 程序员 移动开发

Android进阶:三、这一次,从入门到精通系列Android高级工程师路线介绍

android 程序员 移动开发

Android面经分享:从15K到32K,从小厂到大厂,android系统开发面试

android 程序员 移动开发

Android网络优化攻略,简单了解一下?,图文详解

android 程序员 移动开发

Android自定义View之游戏摇杆键盘实现(一)(1),全网独家首发

android 程序员 移动开发

【Flutter 专题】21 易忽略的【小而巧】的技术点汇总 (二)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 11月日更

Android菜鸟进字节跳动,居然是看了这个(1),kotlin单例应用

android 程序员 移动开发

android进阶篇04、MVC、MVP,腾讯大牛教你自己写Android框架

android 程序员 移动开发

Android静态代码扫描效率优化与实践,2021大厂Android面试经历

android 程序员 移动开发

谷歌“跑腿”机器人实现远距离导航,成功率提高2-3倍_AI&大模型_Google AI_InfoQ精选文章