基于网络流量的应用程序识别软件的实现文献综述

 2022-11-17 16:41:30

随着互联网的发展,网络用户规模越来越大,网络应用数量不断增加,出现了许多新型的基于网络的应用程序,这些应用具有许多新的特点,大大改变了互联网的流量结构和流量模式。这使得网络流量分析面临着严峻的挑战。这些新型的网络应用在方便用户生活的同时也隐藏着更多的威胁,网络质量和网络安全受到越来越多的关注,网络应用识别过滤技术也变得更加重要。另一方面各种新型的网络协议不断涌现,有些网络应用支持用户自定义网络端口,有些恶意软件将流量进行伪装,逐渐增大的网络带宽,这些都是网络应用识别过滤技术面临的问题和挑战。

对于众多企事业单位而言这也是一把双刃剑,它一方面为企事业单位带来了巨大的发展机遇,而另一方面却也给它们带来更高的网络使用危险性、复杂性和混乱性。企业或机构基于安全控制需求,需要对网络环境里运行的应用进行监控。如何有效的基于网络数据准确而快速的识别相关的应用是确保网络安全和流量控制的基础,也是上诉工作得以实施的基本前提。因此,针对网络应用识别过滤技术的研究是十分必要的。网络应用识别过滤技术关键在于网络应用的识别,本课题则是从网络流量中自动识别应用程序,以便于进行安全控制。

网络应用识别技术主要是指对网络中的流量进行分析检测,并识别出与之相对应的网络应用,是网络限制、应用过滤、病毒分析检测等后续业务的前提与基础。早期的研究主要集中在网络流量分类,通过数据库中的样本,采用离线分析的形式计算各类网络应用所占流量比例,其中用到的分析测量方法包括:端口、DFI、机器学习等。而随着近几年的发展,目前常用的网络应用识别技术主要有以下四种:基于端口的识别技术、基于数据包有效负载特征的识别技术、基于流量统计特征的识别技术和基于机器学习的识别。

基于端口的识别技术通过解析网络数据报文中的端口信息进行应用的判断。是以网络应用程序在进行数据通信的过程中,自始至终均使用固定的、不变的端口号为前提和基础的。通过分析研究运输层协议的端口特征,研究者们提出了基于端口的网络应用识别技术。基于端口的识别技术首先需要对抓取的网络流量进行解析,获取报文中的源端口和目的端口,进而与已知端口的协议做比较,达到识别的目的。

以端口为基础的网络应用识别技术实现比较简单,匹配的速度很快,是一种相对简单高效的识别技术。因此在早期,传统的防火墙采用基于端口的方式进行网络流量的识别,取得了不错的效果。然而随着网络技术的不断发展,网络流量的日趋复杂,网络应用种类越来越 多,各种新型网络应用层出不穷。这些新增应用往往采用自定义端口(端口号大于1024)进行通信,并且没有统一的规范。同时,很多网络应用使用动态端口或者自定义的端口来逃避监管,如迅雷等P2P 应用,而且很多恶意软件甚至会使用0-1023范围内的公认端口来隐藏自己的流量。在现今的网络环境下,仅仅以端口为识别依据,使用基于端口的网络应用识别技术已然无法满足实际需求。

基于数据包有效负载特征的识别技术首先需要分析网络通信应用层数据,从应用层数据中提取网络应用层负载的特征信息,然后依据这些特征对网络数据包的应用数据进行特征匹配,从而实现应用识别。与基于端口的识别方式相比,它在解析完TCP/IP首部后,要对应用数据内容进行深度扫描,所以传统上也称为DPI技术。

该技术是当前比较主流的网络应用识别技术,不同的网络应用在进行数据通信过程中会采用不同的网络应用协议,每种协议的格式是不同的,其通信数据将会呈现一定的规律性,而几乎每一种应用进行网络通信时,都能在其有效负荷中找到特征,并且特征中的字节流往往能显著标识相应应用。该技术通过对待识别的网络应用数据包进行深度的解析,找出网络通信过程中该网络应用所独有的特征字符串或者字段。该技术依据特征来匹配网络流量中的应用层数据,如果发现应用层数据中包含有特征,匹配成功,进而达到应用识别的目的。

基于数据包有效负载特征的识别技术识别准确率较高,解决了很多基于端口的识别技术无能为力的问题。但是,因为需要对数据报文深度扫描,所以处理数据包的时间开销往往比较大。尤其当应用特征数目较多时,如何在有效负载中进行特征的快速匹配成为了设计的难点和关键点。当出现应用的网络流量被加密或其它情况,导致无法由有效负荷中提取特征时,基于数据包有效负载特征的识别会失效,这时往往采用基于数据流统计特征的识别技术。

基于流量统计特征的识别技术主要通过获取网络流量连接过程中的信息,统计网络应用的流量特点诸如数据包交互序列、数据包长度、上下行流量、流量比等信息提取其特征,进而通过该特征对网络流量进行识别。因为这种识别方式主要是通过数据流相关信息进行应用的识别,所以也称为DFI技术。

对于那些难以提取应用层负载特征的网络应用,基于流量统计特征的网络应用识别技术有着较好的识别效果,并且该技术具有较强的适应性,同时对网络中层出不穷的新应用也能保持较好的识别效果。但其缺点也很明显,基于流量统计得到的特征受网络流量变化影响比较大,在某一网络环境中提取的应用特征在另一个网络环境中并不一定生效;且提取不同网络应用的流量特征需要耗费很大的工作量;同时,流量统计特征对某一类型的网络应用有较好的识别效果,但具体到某一个应用的识别,该方法则无能为力,误识别风险比较大。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。