基于深度学习的细节化人体三维模型重建文献综述

 2022-11-23 23:13:36

1 导言

人类感知世界的过程中,往往通过视觉获取最丰富的的信息。计算机视觉则是指研究利用摄像头和计算机代替人眼对外部环境进行感知、分析的学科。物体三维重建是计算机视觉领域的核心技术问题,其中,人体的三维模型重建更是一个富有挑战性的热门话题,在计算机动画、医学图像处理、虚拟现实等方面都有着广泛的研究。如何高效而又准确地对人体的姿势和形状进行重建,一直是这个领域发展的难题,图像特征提取算法和人体三维重建算法是其中的核心问题。

2 研究现状

2.1 图像特征提取算法

传统的图像特征提取算法包括HOG(Histogram of Oriented Gradient,方向梯度直方图),LBP(Local Binary Pattern,局部二值模式),SIFT(Scale Invariant Feature Transform,尺度不变特征变换)等等。HOG特征结合SVM分类器进行图像识别最早由法国研究人员Dalal N[1]在CVPR上提出,是指通过计算和统计图像局部区域的梯度方向直方图来构成特征,能够保持很好地几何和光学不变性。SIFT算法由Lowe D G [2]教授提出,最突出的特点就是能够在不同尺度空间上查找关键点,并计算其大小、方向和尺度等信息,对旋转和亮度变化保持不变性,对视角变化和噪声也保持一定程度的稳定性。LBP是一种用来描述图像局部纹理特征的算子,首先由Timo, Ojala[3]提出,用于提取图像的局部的纹理特征,具有旋转不变性和灰度不变性等显著的优点。

随着大数据时代的来临,传统的特征描述子逐渐被学习型的特征描述子所取代,基于深度学习的图像特征提取成为主流趋势。Waibel, A[4]提出了最早的卷积神经网络——时间延迟网络(Time Delay Neural Network, TDNN),应用于语音识别问题,表现由于相同条件下的隐马尔可夫模型(Hidden Markov Model, HMM)。在2012年,Krizhevsky A[5]解决了CNN在多像素图片处理上表现不好的问题,使用了非饱和神经元和非常有效的GPU实现卷积运算加快训练速度,采用称为“dropout”的正则化方法来减少完全连接层中的过拟合。He K[6]在之后又提出了一个剩余学习框架,显式地将层重新表示为参考层输入学习剩余函数,而不是学习未参考函数,在ImageNet数据集上可以以较低的复杂度从相当大的深度中获取精度,从而实现对训练网络的优化。

2.2 人体三维重建算法

由Loper M[7]提出的SMPL(skinned multi-person linear,皮肤多人线性)模型是人体三维重建中最常用的模型,是一个基于皮肤顶点的模型,通过从数据中学习静止姿势模板、混合权重、姿势相关混合形状、身份相关混合形状以及从顶点到关节位置的回归,可以精确地表示自然人体姿势中各种各样的身体形状。姿态相关的混合变形是姿态旋转矩阵元素的线性函数,可以从相对大量的不同姿势的人的对齐三维网格中训练整个模型。近年来,基于单幅图的人体三维重建算法不断改进和优化。Zhu H[8]提出了一种基于分层网格变形(Hierarchical Mesh Deformation,HMD)的单幅图像详细人体形状恢复的新框架,该框架结合了参数模型的鲁棒性和自由形式3D变形的灵活性。利用人体关节、轮廓以及每个像素着色信息来恢复除皮肤模型外的详细人体形状。Kanazawa A[9]提出了一个用于从单个RGB图像重建完整的人体三维网格的端到端人体网格恢复(Human Mesh Recovery,HMR)框架,通过引入一个竞争量使用一个大型的三维人体网格数据库来判断人体的形状和姿势参数是否真实,直接从图像中推断三维姿态和形状参数像素。Caliskan A[10]提出了一种基于单幅图像的服装人体三维重建方法,通过新的真实服装人体合成数据集3DVH,克服了服装、头发、体型、姿势和摄像机视角等因素的限制, 显著提高了重建精度、完整性和质量。Mitra R[11]提出了多视点一致性半监督学习(Multiview-Consistent Semi-Supervised,MCSS)框架,利用来自未注释、未校准但同步的多视点人体运动视频的姿势信息中的相似性作为附加的弱监督信号来指导3D人体姿势回归。

基于多幅图人体三维重建算法主要有SFM(Structrue From Motion,从运动恢复结构)和MVS (Multi View Stereo,多视图立体)。Koenderink J J[12]最先提出了SFM的概念。它是一个从多幅同一场景的照片中恢复场景的三维结构和照片拍摄时相机位置的方法,可以分为增量式(incremental/sequential),全局式(global),混合式(hybrid),层次式(hierarchical)等。Schonberger J L[13]改进了增量式SFM中的步骤,能够比较明显地提升SFM的/鲁棒性以及重建完整性。MVS是对于多视图三维重建一系列方法的总称,就是利用多个相机拍摄的多张照片,来重建出照片中的场景。Furukawa Y和Hernaacute;ndez C[14] 将MVS问题转化成图像/几何约束优化问题,详细讲述了鲁棒实现图像一致性检测和有效的优化算法在应用程序和工业中如何应用。Liang J[15]提出了一个可伸缩的神经网络框架,在SMPL模型的子空间中,从多视角图像重建人体的3D网格,可以显著降低投影模糊问题,提高三维人体服装下的重建精度,具有良好的变量控制灵活性。

Pavlakos G [16]等人一种新的、统一的人体3D模型SMPL-X,它通过完全关节化的手和富有表情的脸来扩展SMPL,实现从一幅单目图像中计算出人体姿势、手姿势和面部表情的三维模型。Xu Y[17]等人提出了一种新的端到端框架DenseRaC,用于从单目RGB图像联合估计3D人体姿势和体型,以人体像素到曲面的对应图作为代理表示,然后进行人体姿态和形状的参数化估计。Zeng X[18]等人提出了一种深密精细网络(DF2Net),克服了由于单张人脸图像的不适定性和需要恢复的精细三维结构的挑战,从而解决从单张人脸图像中重建细节几何结构的问题。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。