01 概述
大多数最先进的检测方法利用固定数量的提议作为候选对象的中间表示,这在推理过程中无法适应不同的计算约束。
在今天分享中,研究者提出了一种简单而有效的方法,该方法通过生成用于目标检测的动态提议来适应不同的计算资源。首先设计一个模块来制作一个基于查询的模型,以便能够用不同数量的提议进行推理。此外,研究者将其扩展到动态模型以根据输入图像选择候选的数量,大大降低了计算成本。新提出的方法在包括两阶段和基于查询的模型在内的各种检测模型中实现了显着的加速,同时获得了相似甚至更好的准确度。
02 背景
目标检测是一项基本但具有挑战性的计算机视觉任务。给定输入图像,算法旨在同时对图像中的目标进行定位和分类。为了实现良好的目标检测性能,两阶段方法首先生成固定数量的粗略提议,然后对其进行细化以输出细粒度预测。作为成功的双阶段方法之一,R-CNN系列利用区域候选网络(RPN)粗略定位目标,然后提取感兴趣区域特征以输出精细预测。为了简化目标检测的过程,提出了基于查询的方法来移除手动设计的Anchor框。
其中,DETR是一项开创性的工作,将目标检测视为具有多阶段变换器和学习对象查询的直接集合预测问题。Sparse R-CNN设计了一个基于R-CNN检测器的基于查询的集合预测框架。通过用固定数量的可学习候选替换手工制作的候选,Sparse R-CNN有效地减少了候选的数量并避免了多对一的标签分配。
在今天分享中,研究者制定了一种训练策略,以促进单个模型根据硬件约束自适应地切换候选的数量。实证研究表明,新提出的模型在相同数量的候选下实现了与单独训练的模型相似的性能。此外,研究者还设计了一个网络模块,根据输入图像的复杂度动态选择proposals的数量,有效降低了计算成本。
如上图,与提出的动态候选相结合,四种所示检测方法的推理速度大幅提高,同时保持了竞争性能。 推理速度是使用单个TITAN RTX GPU测量的。
03 新框架
研究者提出的方法的关键思想是用当前目标检测方法中的动态大小替换固定数量的候选。新提出的模型不是使用固定候选,而是根据输入图像的内容或当前的计算资源选择不同数量的候选,如下图所示。
新提出的方法可以很容易地插入大多数两阶段和基于查询的检测方法。在接下来的部分中,首先回顾了当前带有候选的目标检测方法,并介绍了一种带有可切换候选的训练策略,以使新提出的模型在推理过程中适应不同的配置。然后,将可切换候选扩展到动态候选,以便可以根据输入图像自适应地调整候选编号。最后,引入了一种就地蒸馏策略,在每次训练迭代中将模型中的知识从具有更多候选的网络转移到具有较少候选的网络,这显着提高了新模型的整体性能。
Dynamic Proposa
可切换候选有助于在不同数量的候选下执行两阶段或基于查询的检测模型。在这种情况下,建议的数量是根据外部资源而不是图像的内容来选择的。为了将proposal的数量和计算成本与图像的内容联系起来,研究者使用图像中的物体数量作为指导来生成proposa的动态数量。
在训练过程中,估计图像中的物体数量,记为n~。然后用定义的确定性函数 δ(~n) 替换原始变量δ:
因此δ随着预测目标数量的上限为1线性增长。给定新的动态候选数Nd:
在基于查询的模型中,动态候选特征qd0和框bd0是从原始q0和b0中切片的:
在两阶段模型中,目标候选是从原始候选中采样通过RPN使用下面定义的比率生成的的:
04 实验
在MS COCO验证集上单独使用多种配置训练的原始方法与使用可切换候选联合训练的原始方法之间的比较。
Cityscapes val上目标检测和实例分割的基线模型进行比较。“DP”表示结合动态候选的模型。如下表:
具有动态候选的目标检测及其相应的估计目标数量和候选数量。第一列显示来自MS-COCO的图像,第二列显示来自Cityscapes的图像。
还没有评论,来说两句吧...