视频流中的目标实例分割算法研究与实现文献综述

 2022-11-28 17:52:18

文献综述

摘要:在图像和视频中分割是计算机视觉中的一个基础问题。在图像领域,Hariharan等人提

出了实例分割的任务,即图像中对象实例的同时检测和分割。与图像实例分割不同,视频实例分割旨在同时检测、分割和跟踪视频中的目标实例。视频实例分割适用于需要视频级对象掩膜的应用程序,如视频编辑、自动驾驶和虚拟现实。

视频实例分割比图像实例分割更具有挑战性,因为它不仅要求对单个帧进行实例分割,而且还需要跨帧跟踪实例。另一方面,视频内容包含了比单一图片更丰富的信息,如不同对象的运动模式和时间一致性,从而为对象识别和分割提供了更多的线索。

关键词:目标检测,语义分割,目标跟踪

  1. 目标检测

传统的目标检测方法分为三个部分:区域选择,特征提取,分类器。首先选择不同尺寸、不同步长的滑动窗口在整张图像上进行滑动,提取图中的某一部分作为候选区域;然后对所选候选区域的图像块,提取其高维视觉特征,例如人脸检测中的Harr特征,行人检测等目标检测的HOG特征等;最后利用SVM等分类器对提取的特这个进行识别、分类。

而基于深度学习算法的目标检测主要分为两类,一类是一阶段(One-stage)目标检测算法,如YOLO[1,2,3]系列,SSD[4]算法;另一类是两阶段(Two-stage)目标检测算法,如R-CNN[4,5,6]系列等。

One-stage算法的思路是直接从原图像回归出目标类别以及边界框参数,YOLO的意思是You only look once,显然,该类算法的速度是远比Two-stage算法来的要快的。而Two-stage算法,则会通过各种手段(选择性搜索或者神经网络方式)从一张原图中提取一些候选区域,这些区域可能含有一些待检测目标,紧接着在用一些措施得到候选区域中的目标种类,这种方法在速度上远慢于One-stage算法,但精度和准确性往往会高很多。

  1. 语义分割

语义分割是计算机视觉中的基本任务,在语义分割中我们需要将视觉输入分为不同的语义可解释类别,「语义的可解释性」即分类类别在真实世界中是有意义的。简单来说就是给定一张图片,对图片中的每一个像素点进行分类。

最近的语义分割架构一般都用卷积神经网络(CNN)为每个像素分配一个初始类别标签。卷积层可以有效地捕捉图像中的局部特征,并以层级的方式将许多这样的模块嵌套在一起,这样 CNN 就可以试着提取更大的结构了。通过一系列卷积捕捉图像的复杂特征,CNN 可以将一张图的内容编码为紧凑表征。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。