基于多模态融合学习的情感分析文献综述

 2022-11-25 16:17:21

文献综述

多模态学习综述

【摘要】模态是指人接受信息的特定方式。每一种信息的来源或者形式,都可以称为一种模态。同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。

由于多媒体数据往往是多种信息的传递媒介(例如一段视频中往往会同时使得文字信息、视觉信息和听觉信息得到传播),多模态学习已逐渐发展为多媒体内容分析与理解的主要手段,国内外研究者也逐步在多模态学习领域取得了显著的研究成果。鉴于多模态学习的重要性,本文将重点介绍近年来多模态学习领域的相关研究背景和现状、主要研究方向和未来的研究发展方向。

关键字:多模态学习 表示 融合 对齐 翻译 神经网络 深度学习

一 研究背景及现状

大数据是多源异构的。在信息技术飞速发展的今天,多模态数据已成为近来数据资源的主要形式。研究多模态学习方法,赋予计算机理解多源异构海量数据的能力具有重要价值。

上世纪80年代至21世纪初,统计机器学习方法在智能信息处理的各个领域取得了令人瞩目的成就[1]。Cortes和Vapnik 提出的支持向量机模型可以快速、准确地处理高维、非线性的模式识别问题;Pearl所构建的概率图模型赋予了计算机依据概率推理的能力;进一步地,Jelinek将信息论与隐马尔科夫模型引入语音识别与自然语言处理领域,奠定了近代统计自然语言处理学派的根基,使自然语言处理的工程化应用成为可能。在这一阶段,受麦格克效应的启发,许多计算机科学家致力于构建基于视觉信号和声音信号的多模态语音识别系统,如唇语-声音语音识别系统,有效提高了识别准确率。这一时期的多模态信息系统还被应用于人机交互场景,如Fels等提出的Glove-talk框架(1992年)采用5个多层神经网络实现对手势、声音、语义的机器感知。这一神经网络模型的结构还比较简单,其采用的反向传播训练方法易出现过拟合现象,因而无法对复杂的大规模数据进行处理。

2010年至今,随着Dropout训练模式的提出、Relu激活函数的引入乃至深度残差结构对网络的调整,深度神经网络在许多单一模态的感知型机器学习任务中取得了优于传统方法的效果[1]。以AlexNet、ResNet、GoogleNet为代表的改进卷积神经网络(Convolutional neural network,CNN)模型在ImageNet图像分类任务中甚至取得了超过人类的表现;长短记忆模型(Long short term memory,LSTM)和条件随机场(Conditional random field,CRF)的组合结构在自然语言序列标注,特别是命名实体识别任务中,实现了极为成功的商业化、工程化应用。多模态深度学习已成为人工智能领域的热点问题。Ngiam等在ICML2011(28th International Conference on Machine Learning)的大会论文中对多模态深度学习进行了前瞻性的综述,而这一阶段的深度学习主要网络结构为深度玻尔兹曼机(Deep boltzmann machines)。卡内基梅隆大学的Baltrusaitis等也开展了大量的多模态深度学习研究。

在国内,北京交通大学的Zhang等,北京邮电大学的Wang等在跨模态信息匹配和检索领域开展了许多卓有成效的工作;清华大学的Liu等对视觉模态、触觉模态的数据展开研究,并将其应用于机器人综合感知场景;清华大学的Fu等则在图像语义标注领域取得了若干突破[1]

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。