视频流中的目标实例分割算法研究与实现文献综述-毕设综述网

文献综述

摘要：在图像和视频中分割是计算机视觉中的一个基础问题。在图像领域，Hariharan等人提

出了实例分割的任务，即图像中对象实例的同时检测和分割。与图像实例分割不同，视频实例分割旨在同时检测、分割和跟踪视频中的目标实例。视频实例分割适用于需要视频级对象掩膜的应用程序，如视频编辑、自动驾驶和虚拟现实。

视频实例分割比图像实例分割更具有挑战性，因为它不仅要求对单个帧进行实例分割，而且还需要跨帧跟踪实例。另一方面，视频内容包含了比单一图片更丰富的信息，如不同对象的运动模式和时间一致性，从而为对象识别和分割提供了更多的线索。

关键词：目标检测，语义分割，目标跟踪

目标检测

传统的目标检测方法分为三个部分：区域选择，特征提取，分类器。首先选择不同尺寸、不同步长的滑动窗口在整张图像上进行滑动，提取图中的某一部分作为候选区域；然后对所选候选区域的图像块，提取其高维视觉特征，例如人脸检测中的Harr特征，行人检测等目标检测的HOG特征等；最后利用SVM等分类器对提取的特这个进行识别、分类。

而基于深度学习算法的目标检测主要分为两类，一类是一阶段（One-stage）目标检测算法，如YOLO[1,2,3]系列，SSD[4]算法；另一类是两阶段（Two-stage）目标检测算法，如R-CNN[4,5,6]系列等。

One-stage算法的思路是直接从原图像回归出目标类别以及边界框参数，YOLO的意思是You only look once，显然，该类算法的速度是远比Two-stage算法来的要快的。而Two-stage算法，则会通过各种手段（选择性搜索或者神经网络方式）从一张原图中提取一些候选区域，这些区域可能含有一些待检测目标，紧接着在用一些措施得到候选区域中的目标种类，这种方法在速度上远慢于One-stage算法，但精度和准确性往往会高很多。

语义分割

语义分割是计算机视觉中的基本任务，在语义分割中我们需要将视觉输入分为不同的语义可解释类别，「语义的可解释性」即分类类别在真实世界中是有意义的。简单来说就是给定一张图片，对图片中的每一个像素点进行分类。

最近的语义分割架构一般都用卷积神经网络（CNN）为每个像素分配一个初始类别标签。卷积层可以有效地捕捉图像中的局部特征，并以层级的方式将许多这样的模块嵌套在一起，这样 CNN 就可以试着提取更大的结构了。通过一系列卷积捕捉图像的复杂特征，CNN 可以将一张图的内容编码为紧凑表征。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文文献综述，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

视频流中的目标实例分割算法研究与实现文献综述

您可能感兴趣的文章

登录

您可能感兴趣的文章