自动驾驶中的数据增强

本文摘取了Matt Cooper对自动驾驶数据增强的一些看法。
文章的核心观点是,针对特定的模型必须分析确定特定的数据增强器,不能把增强器技术黑箱使用,否在会产生过拟合。

问题起源

作者在实习的时候实现一个数据增强器,以改进对象检测工作。这其中,一种简单的技术被称为裁剪正则化。简而言之,就是在输入图像中删除随机位置的正方形。根据以往的认识,这种技术可以显著提高视觉应用的精度。但令人惊讶的是,这次这种技术失去了它的效用。而且,作者使用的其他所有增强器(flip/翻转,crop/修剪)都削弱了模型的性能。

由此作者重新审视了数据增强的基本原理。

数据增强

过拟合是训练深度神经网络时的一个常见问题。这会导致一个模型学习数据集中的噪声而不是信号。换句话说,他们记住了数据集的非预期属性,而没有学习到有关世界的有意义的一般信息。因此,当给定新的、真实的数据时,过拟合网络无法产生有价值的结果。

为了解决过度拟合问题,我们经常增加训练数据。增加视觉数据的常用方法包括水平随机翻转图像(flip)、改变图像的色调(hue抖动)或随机剪切(crop)。

flip、hue和crop等增强器都有助于克服过度拟合,因为它们提高了网络的泛化能力。如果你训练一个网络来识别面向右的长颈鹿和面向左的长颈鹿,这个网络就会知道长颈鹿就是长颈鹿,不管方向如何。

COCO公共数据集包含的图像来源多样,这些图像是不同的相机在不同的条件下拍摄的,因此待训练的网络需要在许多因素上进行泛化才能有更好的表现。网络需要处理的一些变量包括:光照、比例、相机内部特性(如焦距、主点偏移和轴倾斜)和相机外部特性(如位置、角度和旋转)。通过使用数据增强器,我们可以泛化这些变量来训练网络。

自动驾驶中的数据增强

与COCO和其他公共数据集的数据不同,自动驾驶汽车收集的数据具有某种一致性。与其他车辆和道路物体相比,汽车通常具有一致的姿态。此外,所有的图像都来自相同的相机,安装在相同的位置和角度。这意味着同一系统收集的所有数据都具有一致的摄像机属性,如上面提到的extrinsics和intrinsics。我们可以使用在实际生产中使用传感器系统来收集训练数据。系统的特定相机属性进行过度拟合实际上是有益的。

由于自动驾驶汽车的数据存在一致性,因此标准的数据增强器(如flip和crop)对性能的损害可能大于帮助。举例来说,翻转训练图像没有意义,因为摄像机总是处于相同的角度,而且汽车总是在路的右侧。汽车几乎永远不会出现在道路的左侧,摄像头也永远不会翻转角度,因此对翻转数据的训练迫使网络过度概括到它永远不会看到的情况。同样,由于汽车的摄像头总是在相同的位置,以相同的视野获取世界,因此不必强迫模型去学习移动和缩放的数据。过度泛化会降低性能,因为网络会浪费预测能力来学习无关的场景。

改进

意识到自动驾驶汽车的数据具有一致性后,作者在引入任何新的增强器之前,首先检查了他们的数据集。作者的原始训练集包括由两个广角相机和一个带有变焦镜头的相机拍摄的图像。其中变焦镜头产生的缩放和移动效果类似于crop。但在实际测试时,用到的只有广角相机。因此在这个情景下,对变焦图像的训练使网络过度泛化了。从原始训练集中移除缩放图像令网络的性能提高了很多。

之后,作者实现了自己的增强器Cutout。与flip和crop不同的是,cutout不会以显著影响相机属性的方式改变输入(即通过翻转、移动或缩放)。其主要用来模拟障碍物,障碍物的不变性可以帮助网络检测部分遮挡的物体。

色调抖动增强也可以在不影响相机属性的情况下帮助泛化。色调抖动只是将输入的色调随机偏移了一定的距离。这有助于网络泛化颜色,即一辆红色的车和一辆蓝色的车都应该被检测到。

值得注意的是,这些增强技巧对来自不同相机类型、不同角度和比例的图像的数据集不起作用。确保你的测试数据涵盖你的模型将在现实世界中看到的东西,这一点是很重要的。如果要使用专门的数据增强器的话,更要多注意这点。

假如你的数据集确实是鲁棒和一致的,那么这些技巧可以成为提高性能的强大工具。通过让我们的网络了解我们车辆的摄像头特性,可以显著提高我们的目标检测性能。

回顾

事后来看,这些增强技巧似乎是显而易见的。但实际情况,我们往往会当局者迷。flip和crop等增强器在研究问题上取得了广泛的成功,我们从未想过要质疑它们对特定问题的适用性。但实际上,在实际进行研究时,我们需要从第一原则重新审视增强的概念。

机器学习领域有许多类似的通用最佳实践,比如如何设置学习率、使用哪个优化器以及如何初始化模型。对于ML实践者来说,不断地重新审视我们关于如何训练模型的假设是很重要的,特别是在为特定的应用程序构建模型时。与ImageNet相比,在处理卫星测绘数据或细胞成像时,视力问题会发生什么变化?我们认为像这样的问题在学术界还没有得到充分的探讨。通过用全新的视角来看待它们,我们有潜力极大地改善机器学习的工业应用。

0%