一、运动目标检测算法
广域运动图像(WAMI)中的物体检测已经引起了计算机视觉研究界的关注多年。物体检测是计算机视觉研究的一个重要且活跃的领域。在防御和安全领域,对大量目标进行持续监视越来越重要。响应于此,具有宽FoV的广域运动成像(WAMI)传感器越来越受欢迎。这种WAMI传感器同时提供高空间和时间分辨率,在大的地理区域上提供极高的像素数。随后的数据速率使得需要非常带宽的数据链路(例如,用于人工解释)或者需要接近传感器的自动化来选择显着的信息。对于后一种情况,Yimin.D等人使用迭代四叉树光流算法来有效地估计背景的透视变形的参数。然后,Phil等人使用稳健的估计器来同时检测前景像素并推断当前图像中每个背景像素的参数。多目标跟踪器使用每个目标的卡尔曼滤波器和全局最近邻方法来进行多目标数据关联,从而包括用于遗漏检测和误报警的统计模型。使用空间数据结构来确保跟踪器可以扩展以分析数千个目标。证明了实时处理(在适度硬件上)对于未分类的WAMI红外数据集是可行的,该数据集包括40Hztimes;4096像素,1Hz模拟从UAV上的宽FoV传感器获取的数据。低延迟,尽管间歇性遮挡和误报。
在过去的几年中,物体检测一直由仅依赖于空间和外观信息的探测器主导(例如,更快的R-CNN [20],ResNet [5],YOLO 9000 [18])。 这些方法从图像中提取低到高级别的空间和外观特征,以预测和分类对象。 然而,在最近的许多工作[21,24,27,28]中已经说明,由于几个独特的挑战,这些基于外观和机器学习的方法在WAMI中失败。
WAMI中的所有状态对象检测方法都是基于运动的[17,27,28],其使用背景减法或帧差分来找到视频中的对象。然而,与基于外观的方法一样,基于运动的方法遭受其自身的昂贵缺点。框架差分和背景减法的核心在很大程度上依赖于视频帧注册。帧注册中的小错误可能导致大的失败,并且尝试去除误报通常对这些方法至关重要。除了帧注册之外,背景减法还需要在整个视频的大量帧上计算中值背景图像。这与外观信息的无知相结合导致跨多个视频帧的信息的低效使用。然而,最大的缺点是完全无法检测到停止的车辆。由于其仅依赖于时间信息,所有最先进的方法都无法检测到相对于背景不移动的车辆。
最近的一些作品[3,6,8,22,26]已经尝试以各种方式开始组合空间和时间信息以用于对象检测和动作识别。 这些方法包括使用跟踪方法或光流连接帧间检测,使用滑动窗口或开箱即用检测器执行检测,然后使用一些时间信息对此结果进行分类,以及组合单帧CNN的输出和光流输入到CNN。 然而,所有这些方法都依赖于单帧检测器,其不使用时间信息,或者使用滑动窗口来检查视频帧中的所有可能位置以用于对象提议,因此,没有充分利用视频中对象检测任务的时间信息。
WAMI提出了许多独特的挑战,包括极小的物体尺寸,稀疏和密集的物体,以及极大的搜索空间(大视频帧)。 WAMI对象检测中几乎所有最先进的方法都反映基于外观的分类器在这个具有挑战性的数据中失败,并转而几乎完全依赖于背景减法或帧融合的形式的运动信息。 在这项工作中,我们通过实验验证在WAMI,外观基础的分类器的故障,例如更快的R-CNN和基于热图-充分卷积神经网络(CNN),并且提出了一种全新的两阶段的时空CNN,有效地结合了外观和运动信息,显着超越了WAMI物体检测的最新技术水平。为了减少大的搜索空间,第一阶段(ClusterNet)接收一组极大的视频帧,在卷积体系结构内组合运动和外观信息,并提出感兴趣的对象区域(ROOBI)。 由于WAMI中的大视频帧大小和不同的对象密度,这些ROOBI可以包含一个到几百个对象的簇。 然后,第二阶段(FoveaNet)通过热图估计同时估计给定ROOBI中所有对象的质心位置。所提出的方法在WPAFB 2009数据集上超过了最先进的结果,对于移动物体超过了5-16%,对于被停止的物体超过了近50%,并且是广域运动图像中第一个用于检测完全静止的方法。
- 帧差分和背景减法
由于WAMI的困难以及基于外观和机器学习方法的报告失败,WAMI中所有最先进的方法都基于帧差分或背景减法。这些方法严重受到引入误报的影响,无法检测静止车辆。 较慢的车辆也会引起一个主要问题,因为它们容易在帧差分中引起分裂检测[28],而对准误差和视差效应在背景减法模型中增加,背景减法模型使用比帧差分更多的帧。
- 区域提案网络
区域提议网络(RPN),例如更快的R-CNN [20],它在某些方面成为对象检测的标准,已经显示出以高准确度和高效率生成对象提议的能力。不幸的是,由于更快的R-CNN仅作用于单帧,不能利用可用的时间信息,且WAMI视频帧非常大,因此无法在任何合理数量的GPU上完整地发送到更快的RCNN网络等原因,更快的R-CNN在WAMI中失败。
- 时空CNN
在过去几年中,部分由于深度学习方法在大量问题中取得了巨大成功,已经提出了一些在深度学习框架内以各种方式组合空间和时间信息的工作。 Baccouche[3]和Ji等人[6]都建议使用3D CNN进行动作识别。 Simonyan和Zisserman [26]提出了“双流”CNN,一个分支接收单独的视频帧作为输入,另一个接收光流图像栈,其中两个流的输出在网络的末端组合。康等人。 [8]提出了几种方法来连接各个帧中的对象检测,包括使用跟踪算法,光流引导传播和长期短期记忆(LSTM)子网络。 Rozantsev等人[22]使用滑动窗口提议检测飞行无人机,多次输入两个CNN以对齐每个帧,然后在滑动窗口中执行对象或非对象的二进制分类。我们的方法提出在具有挑战性的WAMI域中解决单帧检测器失效的这种物体检测问题。 Simonyan和Zisserman在特征提取期间将空间和时间信息分开,简单地组合网络末端的提取特征。如上所述,单帧检测器在WAMI中失败。而且,由于连续帧之间的极大的物体位移,光流动流可能会显着地挣扎。 Kang等人的工作还依赖于在应用跟踪或LSTM方法之前首先获取单帧对象检测。Rozantsev等人的工作是这些方法中唯一不依赖于单帧检测的方法,而是在使用3DCNN进行分类之前选择滑动窗口来首先生成其对象提议。 但是,基于滑动窗口的方法效率极低。 我们的工作建议使用多帧,两阶段CNN同时为WAMI中的视频生成所有对象提议,以比计算效率更高的方式比背景减法或滑动窗口,在基于深度学习的算法中有效地组合空间和时间信息。
二、红外图像特征
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。