文献综述(或调研报告):
1.时间序列早期预测研究进展
在对时间序列进行早期分类预测的问题上,学术界探讨已久。大多数现有的方法是将序列转化为特征集,然后使用传统分类方法处理该特征。比如Lesh等人提出了提取特征的方法;Nanopoulos提取诸如均值、偏差等统计学特征,在特征上建立神经网络来分类;Eads用gamma;-引导方法提取特征并用于SVM分类器。不同于基于特征的分类,基于样本实例的分类(例Keogh and Kasetty的方法)比如1NN最近邻分类器则是根据待预测序列和样本序列的相似度来分类。距离度量的选择对1NN分类器的性能至关重要,欧几里得距离往往优于其他度量。X. Xi指出,在小数据集上,弹性的尺度比如动态时间扭曲(DTW)优于欧几里得距离。然而在大数据集上,弹性的尺度的精度收敛于欧几里得距离的精度
在早期性上面的研究,首先, Rodriguez 和Alonso的工作聚焦于在使用部分序列信息来预测,但没有尝试最少化信息数量。Z. Xing等人曾尝试构造象征性序列数据来解决该问题:挖掘能在早期预测中有高实用性的象征序列模式,以形成分类规则或决策树。时间序列是数值的,为了使用象征方法,时间序列应当被适当地离散化。然而离散方法高度依赖于好的序列背景知识。而且收离散粒度的影响,离散化会导致时间序列丢失部分重要信息。因此象征模式的方法在该问题上效果不是很好。
兼顾高准确率和高早期性目标的方法中,Z. Xing等人提出的1NN Early和ECTS方法取得不错的效果。1NN Early在1NN方法上加入了早期性目标,基于欧几里得距离和最小预测长度MPL进行分类,每一时刻t找到待预测序列S的最近邻的样本序列,当t大于该样本序列的MPL时,即可在此刻做出分类。ECTS是1NN Early的扩展,通过对样本进行层次聚类并计算每个聚类集群的MPL来进行分类,解决了1NN Early中过拟合以及计算单个样本的MPL过于严格的问题。N. Parrish等人将早期分类问题作为一种处理不完全信息的分类问题,他们基于概率预测并用线性和二次方判别函数作为分类器。U. Mori等人用概率分类器集合以及最优的停止规则来分类。A. Dachraoui等人提出了“非短视”框架,通过分类器集合来预测最早做出分类的时间。
用强化学习来解决时间序列早期预测问题的,是由Martinez Coralie等人提出的DQN方法,该方法结合强化学习和深度学习的优势,通过搭建DQN神经网络来进行Q学习。它将样本序列作为输入,通过观测序列状态并根据策略选择动作,直到在合适的时刻做出正确的分类。该方法目前在正确率和早期性上效果均最佳,因为智能体能够通过探索和利用方式在较短的时间内学得序列的关键特征。
2.强化学习方法综述
2.1强化学习的基本思想
智能体(Agent)在与环境交互的过程中根据环境反馈得到的奖励不断调整自身的策略以实现最佳决策,主要用来解决决策优化类的问题。其基本要素有策略(Policy)、奖赏函数(Reward Function)、值函数(Value Function)、环境模型(Environment),学习过程可以描述为马尔科夫决策过程。首先智能体感知当前的状态St,从动作空间A选择动作at执行;环境根据智能体做出的动作来反馈相应的奖励rt 1,并转移到新的状态St 1,智能体根据得到的奖励来调整自身的策略并针对新的状态做出新的决策。强化学习的目标是找到一个最优策略Pi;*,使得智能体在任意状态和任意时间步骤下,都能够获得最大的长期积累奖赏
其中pi;表示智能体的某个策略,gamma;isin;[0,1]为折扣率,k为未来时间步骤,S为状态空间。
2.2强化学习算法
强化学习的各类算法根据不同的特征具有多种分类方式,如根据模型是否已知可以分为模型已知 (Model Based)和模型未知(Model Free)两类; 根据算法更新的方式可以分为单步更新和回合制更新两类; 根据动作选择方式可以分为以值为基础(Value Based)的强化学习方式和以策略为基础(Policy Based)的强化 学习方式;根据学习策略和执行策略是否为同一策略 可以分为同策略(On Policy)学习和异策略(Off Policy)学习;根据参数化方式的不同可以分为基于值函数的强化学习方法和基于直接策略搜索的强化学习方法。
2.2.1基于值函数的强化学习方法
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。