自动驾驶技术公司Waymo（该公司归谷歌母公司Alphabet所有）发布了一个数据集，其中包含自动驾驶汽车在5个多小时的驾驶过程中收集到的传感器数据。该数据集包含了激光定位器和摄像头在多个城市和郊区环境的多种驾驶条件下收集的高分辨率数据，其中还包含车辆、行人、骑行者和路标的标签。

Waymo团队在一篇博文中宣布发布Waymo Open Dataset，并称其为“有史以来发布的最大、最丰富和最多样化的研究用自动驾驶数据集之一”。这些数据是由Waymo在美国凤凰城、阿兹州、柯克兰、西弗吉尼亚州、山景城、加利福尼亚州和旧金山市的车辆在不同时间、不同天气情况下收集的。该数据集有1000个数据段，每段20秒，以10Hz的频率收集（也就是200000帧），其中包括：

从五个激光定位器和正面及侧面的五个摄像头同步的数据
传感器标定和姿态
所有激光定位器画面的3D边界框都有对象标签（车辆、行人、骑行者和路标）
100个数据段的摄像头数据的2D边界框有对象标签

Waymo还发布了一个谷歌Colab笔记本，包含教程和一个GitHub存储库，而后者又包含用于构建模型的TensorFlow辅助代码。这个巨大的标记数据集可以用于检测障碍物和交通标志的模型的监督机器学习，这是任何自动驾驶汽车的关键能力。激光定位器虽然可以生成一个点云图来定位三维空间中的物体，但它无法检测颜色，因此完全看不到路标上的字母。二维摄像头图像缺乏距离信息，但来自多个摄像头的图像可以通过处理重建深度。虽然Elon Musk认为激光定位器是“不必要的”，但将激光定位器的3D数据与2D摄像头数据相结合，可以简化在图像中检测障碍物距离的过程。

Lyft上个月公布了一个类似的数据集Lyft Level 5（以SAE驾驶自动化的最高级别命名）。Lyft的数据集包含5.5万帧，大约是Waymo的四分之一；与Waymo的数据集相比，Lyft获取每一帧数据所使用的摄像头更多（7个）、激光定位器则更少（3个）。两家公司都希望他们的数据能被研究团体用来改进算法和模型。Lyft在发布会上特别强调了学术研究，并计划利用他们的数据集赞助一场机器学习竞赛。

毫不奇怪，这两个数据集都只允许用于非商业用途。Lyft遵循知识共享署名-非商业性共享许可。Waymo的许可非常严格，甚至禁止“在车辆运行或协助车辆运行时”使用。Twitter上的一位用户指出，虽然Waymo将数据集描述为“开放的”，但许可协议“不符合开放的定义”。

虽然从某种意义上说，自动驾驶汽车已经成为现实——Waymo的自动驾驶出租车已经在凤凰城运营了两年多——而且研究表明，在未来，机器人汽车能够拯救生命，但目前还不清楚它们是否已经“为进入黄金时代做好了准备”。Waymo的出租车总是有一个人在方向盘后面作为安全备份，而且自动驾驶软件有时会给乘客带来痛苦的体验。科技新闻网站The Information调查了7月和8月1万多次Waymo旅程中乘客的评分和反馈。尽管70%的旅程获得了完美的评分，与今年第一季度相比有所改善，但一些乘客抱怨说，自动驾驶的体验“让人不舒服，而且非常令人担忧”。其他乘客抱怨说，这些车选择了迂回的路线，导致他们迟到。

人工智能研究人员、Roomba联合创始人Rodney Brooks表示，他预计在2032年之前不会出现真正的机器人出租车服务：

对无人驾驶汽车可行性的真正考验，不是在测试或演示中，而是在无人驾驶出租车、拼车服务或供终端消费者的自行驾驶汽车停车的停车场的所有者真正从中赚钱时。

原文链接：

Waymo Shares Autonomous Vehicle Dataset for Machine Learning

创作场景

Waymo 共享用于机器学习的自动驾驶数据集