- 文献综述(或调研报告):
3.1流量识别方法
随着现实网络中的流量急剧增加,流量识别与分类的研究手段日渐丰富。当前在流量识别领域,主要的研究手段和方法有,基于端口的流量识别技术,基于报文负载的流量识别技术,基于统计手段和机器学习方法的流量识别技术,基于指纹特征的流量匹配识别技术。
基于端口的流量识别方法,是早期流量识别工作的常用手段之一[2]。在流量识别发展的初期,研究往往针对于网络中数据量最多的基础协议,这些基础协议有一个共同特点就是通讯端口固定。但是随着网络流量发展的多样化,流量识别的重点从端口转移到新兴网络协议产生的流量上了,基于端口的流量识别方法大大降低。Moore[1]提出,当前端口识别技术流量识别率仅占69%。此外,在实际网络环境中,即使是拥有固定端口的协议,某些情况下,也会产生使用非固定端口传输的流量。因此,基于端口的流量识别方法无法在当前现实网络环境下对HTTPS流量进行识别。
基于报文负载的检测技术,也是传统识别方法中重要的一类。其中最典型的叫深度报文检 测(Deep Packet Inspection DPI)法。这是一种基于数据包的深度检测技术,针对不同的网络协议进行深度检测,通过不同协议报文中专属的模式串,对流量进行识别。针对于 DPI 技术在实际流量识别工作中的应用,学界此前已有了不少的探索和研究。为完成异常流量的检测,Dreger[3]等人利用 DPI 技术对负载进行串匹配。DPI 技术的一般模式是,针对与不同种类的流量建立特征库,然后通过模式匹配方法对流量进行识别。但是该方法存在一定缺陷,主要针对未加密的流量。HTTPS尽管在其握手过程中协议头部是非加密的,但是在其他数据都是加密的,因此不能利用DIP进行HTTPS加密流量分析。
近年来,随着人工智能类学科的兴起,人工智能和机器学习在流量识别领域也得到很大的应用。就特征选择而言,很多研究选取了平均负载大小、负载大小方差、数据包间隔、流持续时间等传输层数据流的统计学特征。就方法而言,决策树、朴素贝叶斯、支持向量机、adaboost等方法,均有被应用于流量识别领域的先例。Zhang[4]将朴素贝叶斯算法利用到特定的流量分类工作中,取得了较好效果。
对于特定协议或应用所产生的流量,为该种类流量建立流量指纹,对于待分类流量,利用指纹进行匹配分类,是流量识别工作中一种较为新颖的方法和思路。相较于传统方法,利用指纹识别应用范围较窄,但是针对某一类流量,在实际应用中准确率较高。Wu[5]提出了以访问站点产生的HTTPS请求应答对象大小作为指纹,标识访问特定页面所产生流量的方法,达到了对于HTTPS 流量识别的目的。
3.2基于流量指纹的分类识别研究
Hintz[6]针对于HTTP/1.0协议的特性:每一个文件是以一个单独的TCP连接传输的,即使使用加密代理,此行为依然是存在的。通过预先抓包统计测试站点页面 的TCP连接数和每一个连接上传输的文件大小,将其定义为该站点页面的指纹信息。
这是在HTTP/1.0协议的基础上实现的分类手段,在HTTP/1.1协议下已经不能使用。HTTP/1.1默认使用持久连接,在持久连接下,不必为每个Web对象的传送建立一个新的连接,一个连接中可以传输多个对象。Sun[7]等人采用了Jaccard coefficient分类算法第一次实现了站点识别,并给予了精确度验证,他们仍是以文件对象的大小和数量作为指纹,但去除了TCP连接总量属性,因此可以在HTTP/1.1下运行。
在HTTP/1.1和TLS/1.0下,Bissias [8]等人提出了基于数据包到达间隔和数据包大小建立站点指纹,并使用交叉相关性算法计算页面与已知页面的相似度。在这种指纹提取比对算法下,Bissias在结果中选取一个和三个站点作为猜测结果,分别得到了40%和接近100%的精确度。
以上是文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。