自动驾驶场景思考

本文主要内容来自Simon Chauvin,在进行翻译时融入了我自己学习过程中的认知和思考。

  • 如何描述交通场景,用什么格式或语言?
  • 如何找到频繁出现的碰撞场景,人类驾驶员通常在哪里失败?
  • 如何生成关键场景来测试边缘用例?
  • 哪些数据集可以用来学习和测试用于预测和决策的算法?

场景语言格式

(Queiroz, Berger, and Czarnecki 2019)指出现在还没有一种语言来正式描述涵盖道路交通情况复杂性的测试场景。这阻碍了测试的重现性,并破坏了工具之间的可交换性。为了解决这个问题,他们引入了一种用于场景表示的领域特定语言GeoScenario。该语言构建在开放街道地图(OSM)原语之上。GeoScenario的目标类似于文件格式OpenSCENARIO(OpenSCENARIO描述了驱动仿真应用程序中的动态内容,并经常与OpenDRIVE一起用于静态内容。)

另一个工具CommonRoad被多次使用,特别是因为它从NGSIM US 101数据集中实现了高速公路场景。这一系列应用于道路规划的可组合的benchmark目的是为研究人员提供一种评估和比较他们的规划器的方法。

为了在场景中表示道路网络,Lanelets地图(OSM格式的一个开放扩展)被广泛使用(例如GeoScenario和CommonRoad)。Lanelets2用于(Naumann et al. 2019)设计具有遮挡的场景。他们的实验是基于修改版的CommonROAD。

经常出现的关键场景

最常见的车祸场景可以从美国国家公路交通安全管理局(NHTSA)的车祸数据中检索到。CARLA AD challenge使用NHTSA pre-crash的来测试面向常见关键场景的agent表现。

(Pusse和Klusch 2019)使用GIDAS分析了德国发生的数千起事故,以此作为基准。然后使用开源的3D驾驶模拟器OpenDS 对场景进行虚拟模拟。

生成边界情况的场景

(Klischat和Althoff 2019)提出了一种方法来生成关键场景,用于在复杂的城市交通情况下测试运动规划者。
这部分会是我的硕士论文,此处保密。

对新数据集的需求

在许多论文中,对真实世界的实验都被放在未来的工作中了。其中一个原因是,很难将模拟或手工场景的模型转换到真实的汽车。这就产生了两种需求:

  • 需要更逼真的模拟器。
  • 需要更丰富的流量数据集与关键场景。

但是考虑那个先有鸡还是先有蛋的问题:验证模拟器可能比验证算法本身更困难。

现实世界中的驾驶数据集对于基于学习的方法非常重要,这些方法试图对人类驾驶风格和行为建模。它们的多样性和完整性对于预测和决策模型的一般化也是必不可少的。

根据(Kang, Yin,和Berger 2018)或scale.ai列出的,存在一些基于真实交通的场景记录集合。但大多数还是主要涉及感知。

研究与易受伤害的道路用户(即行人和骑自行车者)进行交互的工作可以使用Stanford Drone数据集清华-戴姆勒TDC数据集JAAD数据集Eurocity PersonsECP数据集

对于高速公路和十字路口场景,HighDNGSIM经常被提及。HighD的车辆轨迹是用一架无人机在德国高速公路上记录下来的,而NGSIM数据集包含了安装在旧金山湾区一幢建筑物顶部的摄像头45分钟内记录下来的车辆轨迹数据。如果广泛使用这一真实的公路交通数据,SIPD研讨会的参与者认为这些数据“被过度使用”,“完全无聊”,因为它们缺乏复杂的操作。

不同的团队对数据集的需求是不同的。有些人想要全知全能的鸟瞰图,特别是为了提取遮挡。有些人更喜欢从车辆上记录的数据(Pool, Kooij,和Gavrila2019),这些数据可以捕捉上下文线索,在计划前推断意图,比如骑自行车的人在转弯前举起手臂。这些特殊需求的一个例子是,在IV19上展示的许多工作都是使用自己的运动驾驶模拟器或构建自己的数据集。然而,这些个体的发展使得实验难以复制、比较和基准。此外,大多数手工制作的数据集都非常小,这对于基于学习的模型的培训并不理想,并且不包含许多不同的情况。

结论很清楚:我们缺少一个数据集,它具有多种多样的、复杂的和关键的情况,且可用于交互感知的预测和决策。

SIPD研讨会的联合组织者Wei Zhan借此机会宣布发布了一个新的数据集,名为交互数据集,用于社会互动预测和决策。以下是一些要点:

  • 在不同的地点(如美国、德国、中国),不同的驾驶文化,不同的交通规则,对于类似的场景(合并、绕行等),无人机都有记录。
  • 包括了一些关键的情况,例如近碰撞情况和轻微碰撞事故,这对于测试边缘情况非常有趣。
  • 另一个有前途的特点是,涵盖了带有谈判的复杂的驾驶行为和不明确的路权(通行权)
  • 最后,所有场景都带有一个基于lanelet2的带有语义信息的HD-map。模型中也会有遮挡作为ground truth,这是测试社会认知的关键。
0%