- 文献综述(或调研报告):
为了在已知的流量关联模型的条件下实现流量关联系统,并通过网页展示实现他的可视化。我查阅的大量文献并从以下几个方面对本次流量关联系统进行调研。首先,我对众多的流量关联系统进行了研究,了解了流量关联系统的基本原理和相关系统设计思路;然后,我调查了机器算法的可视化方面,其他人的系统对自己的系统如何展示关联结果有何借鉴意义。
- 当前主流的流量关联系统:
- 被动的流量关联系统。
被动的流量关联系统不会对网络上的网络流数据进行更改,他只是通过截取/窃听的方式去收集网络流,在对收集到的网络流进行流量特征分析从而进行流量关联。被动的流量关联系统主要包括下面两个步骤。第一步,网络流量的收集。获的网络流越多,能获取的流量特征也就越多,流相关的精度也就越高。各种研究中,可以通过恶意运行中继器来获取更多的Tor网络流[7,8,9];也可以控制/窃听网络中的自主系统(AS)或是因特网交换点(IXP)来截获网络流[10]。而本次系统则是对所有网络设备进出口流量的18个流量特征共70维的流量特征进行收集。当然,收集到的流量数据相当庞大,会带来很高的存储、通信和计算开销,Milad Nasr等人[1]提出了流量压缩分析,通过压缩流量特征,再对压缩后的流量特征实施流量关联而不是对原始流量特征实施流量关联,大大提高了效率,而本系统针对网络传输开销大的情况,将在信息采集服务器计算出流量特征,再对流量特征进行传输。第二步,流量关联分析。流量关联的算法有很多种,Chothia,Zhu等人[14]使用了互信息量度算法;有些流量关联系统[10,11]所使用皮尔逊相关系数;RAPTOR系统[13] 使用Spearman秩相关系数。这些都是传统量度算法,而DeepCorr[11]使用机器学习算法,通过神经网络系统来接受原始网络流量,通过学习训练生成网络关联系统,它的性能精确度都很高,本次系统所用到的流关联系统就是基于这种算法的。我们可以通过接口调用流量关联系统进行训练,训练后就可以对测试集进行测试,通过接口返回关联情况,再在网页上进行展示。
- 主动的流量关联系统。
不同于被动流量关联系统只收集网络流量,主动流量关联系统会主动修改网络流中的数据通过修改网络流量进行流量关联。这种主动流量关联技术也称为“水印”技术,“水印”技术解决了网络流量追踪的难题。“水印”技术一般可分为下面三个步骤:第一步,水印的设计,如Ling[3]等人设计的基于包大小的水印技术, Iacovazzi等人[2]基于丢包的技术-DropWat流水印技术。第二步,水印的编码,水印的编码主要解决两个问题,水印系统的不可见性和鲁棒性。Zhongjiang Yao[4]等人通过将水印映射为离散均匀分布,提高了水印的不可见性;Alfonso[5]等人通过DROPWAT嵌入算法,让他的水印(基于丢包的技术)看起来像正常的网络丢包情况。第三,水印的检测。检测器必须放在被检测网络流的1个或多个节点上,检测器分析所有流量,并试图检测水印是否嵌入到任何被检测的网络流中。
- 基于机器学习的可视化应用:为了更好的实现网络关联系统的可视化,我调研了其他基于机器学习的有关于数据挖掘方面的系统的可视化。发现设计一个用于展示数据挖掘的可视化系统的设计的体系结构包括下面四个部分:(1)最底层是数据收集模块,Weka STPM[12]设计了一个通过分析运动物体(人类,鸟类,车辆等)轨迹来分析其运动模式以用于研究旅游,鸟类迁徙,交通管理等领域。其最底层的结构就是通过GPS采集的运动轨迹。在本次流量关联展示系统中,其数据收集就是VAS网络中的网络流量。(2)第二层就是数据的预处理,通过对原始数据的预处理,使数据规范化以用于下一步数据挖掘。Weka STPM通过噪音消除,添加语义等对数据进行预处理。(3)第三层就是数据挖掘,比如Chong Ho Yo[15]等通过数据挖掘来调查生活满意度、世俗化与宗教的关系。我们通过各种机器算法对数据进行数据挖掘:关联算法挖掘数据间联系紧密的观念规则;分类回归算法实现对目标的预测;聚类算法找出若干关联紧密的簇。本系统就是采用聚类算法将关联度高的网络流进行初步聚类再输入到Siamese网络中进行再训练。(4)最上层是信息的可视化展示,可视化系统中可以通过算法方便的实现可视化,如weka系统中,分类回归算法通过图形模式的决策树实现可视化;聚类算法通过各实例的散点图的着色实现可视化。Chen Guishy;Fen[16]等人通过空间加权模糊动态聚类算法,实现了算法的动态过程可视化。
- 技术综述:
- django框架,本次展示系统用django框架进行项目的实现,作为Python编程语言的一个功能强大的Web应用框架。它用对象关系映射模型进行模型的创建管理,直观化数据库操作。管理界面能够实现对所有数据的管理,用正则表达式匹配URL进行URL管理,用模板语言管理前端网页界面。
- 网络拓扑图:流量拼接展示系统中最重要的就是可视化部分,如何让人更为直观,方便的看到流量拼接的结果,本系统采用了用网络拓扑图的形式来展示流量拼接结果。在网页上通过canvas画布实现,画面元素由节点和连线组成,节点代表路由器等设备,连线表示连接。通过修改连接的属性(如颜色,粗细等)就能很直观的展示流量拼接的结果。
参考文献:
- Nasr M, Houmansadr A, Mazumdar A. Compressive traffic analysis: A new paradigm for scalable traffic analysis[C]//Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. ACM, 2017: 2053-2069.
- Chaddad L, Chehab A, Elhajj I H, et al. App traffic mutation: Toward defending against mobile statistical traffic analysis[C]//IEEE INFOCOM 2018-IEEE Conference on Computer Communications Workshops (INFOCOM WKSHPS). IEEE, 2018: 27-32.
- Z. Ling, X.W. F, et al, ”Novel Packet Size-Based Convert Channel Attacks against Anonymizer,”IEEE Trans. on Computes, vol.62, no.12, pp.2411-2426, 2013.Yao Z, Zhang L, Ge J, et al. An Invisible Flow Watermarking for Traffic Tracking: A Hidden Markov Model Approach[C]//ICC 2019-2019 IEEE International Conference on Communications (ICC). IEEE, 2019: 1-6.
- Iacovazzi A, Sarda S, Frassinelli D, et al. Dropwat: an invisible network flow watermark for data exfiltration traceback[J]. IEEE Transactions on Information Forensics and Security, 2017, 13(5): 1139-1154.
- Rimmer V, Preuveneers D, Juarez M, et al. Automated website fingerprinting through deep learning[J]. arXiv preprint arXiv:1708.06376, 2017.
- Axel Arnbak and Sharon Goldberg. 2014. Loopholes for Circumventing the Constitution: Unrestricted Bulk Surveillance on Americans by Collecting Network Traffic Abroad. Mich. Telecomm. amp; Tech. L. Rev. 21 (2014), 317.
- Nikita Borisov, George Danezis, Prateek Mittal, and Parisa Tabriz. 2007. Denial of service or denial of security?. In Proceedings of the 14th ACM conference on Computer and communications security. ACM, 92–102.
- Nicholas Hopper, Eugene Y Vasserman, and Eric Chan-Tin. 2010. How much anonymity does network latency leak? ACM Transactions on Information and System Security (TISSEC)
- Xiang Cai, Xin Cheng Zhang, Brijesh Joshi, and Rob Johnson. 2012. Touching from a distance: Website fingerprinting attacks and defenses. In Proceedings of the 2012 ACM conference on Computer and communications security. ACM, 605–616.
- Brian N Levine, Michael K Reiter, Chenxi Wang, and Matthew Wright. 2004. Timing attacks in low-latency mix systems. In International Conference on Financial Cryptography. Springer Berlin Heidelberg, 251–265.
- Bogorny V, Avancini H, de Paula B C, et al. Weka‐STPM: A software architecture and prototype for semantic trajectory data mining and visualization[J]. Transactions in GIS, 2011, 15(2): 227-248.
- Yixin Sun, Anne Edmundson, Laurent Vanbever, Oscar Li, Jennifer Rexford, Mung Chiang, and Prateek Mittal. 2015. RAPTOR: routing attacks on privacy in tor. In 24th USENIX Security Symposium (USENIX Security 15). 271–286.
- Ye Zhu, Xinwen Fu, Bryan Graham, Riccardo Bettati, and Wei Zhao. 2004. On flow correlation attacks and countermeasures in mix networks. In International Workshop on Privacy Enhancing Technologies. Springer, 207–225.
- Yu C H, Trier H, Slama M. A Data Mining and Data Visualization Approach to Examine the Interrelationships Between Life Satisfaction, Secularization and Religiosity[J]. Journal of religion and health, 2019, 58(1): 271-288.
- Chen G F, Wang G W, Ma L, et al. Research on Spatially Weighted Fuzzy Dynamic clustering algorithm and spatial data mining Visualization[C]//2009 WRI World Congress on Software Engineering. IEEE, 2009, 3: 60-66.
以上是文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。