Tor暗网站点定制爬虫系统的设计与实现文献综述

 2023-08-11 11:11:19
  1. 文献综述(或调研报告):

(1)暗网的基本概念

暗网是用于共享数字内容的网络和技术的集合。 暗网不是一个单独的物理网络,而是一个基于现有网络的应用程序和协议层[1] 。但是大多数情况下,暗网指的是只有通过一种叫做 Tor 的加密工具才能访问的网络区域。Tor 是一个开源工具,旨在为那些使用互联网的人提供匿名和隐私。 它可以防止观察用户的人识别他们正在访问的网站,也可以防止网站识别用户[2]

在过去,有价值的物品通常是实体的东西,因而依据它而进行的违法犯罪活动可以较为容易的被警察阻止。而到了今天,许多有价值的物品通常以bit的形式存在,而这种形式又极为容易进行非法复制继而传播,因而使得版权的保护变得十分困难。尤其是在暗网出现之后,这些非法行为更加难以被监控。暗网网站大多数都是犯罪导向的,尤其是药品市场,同时托管儿童虐待图像网站是最常被请求的[2]。因而非常迫切的需要对暗网站的内容进行监管和查封。

(2)网站验证码的识别

本次毕业设计的内容就是对暗网站的内容设计爬虫进行爬取。为了实现目的,我们首先要实现Tor网站的验证码识别以及自动登录,登录成功后构建Tor站点定制爬虫系统对暗网站内容进行爬取和分布式存储,并将指定信息存入到数据库之中。

对典型验证码的识别是本次任务中最重要的一部分。为了实现对于典型验证码的识别,我们利用机器学习的相关知识,采用基于生成式对抗网络的方法来训练验证码识别模型。以前的基于机器学习的方法来训练验证码求解器,需要使用大量的验证码,而这些训练所需要的验证码,往往是难以收集到的。而如果采用基于生成式对抗网络的方法,则会大大减少训练所需要的验证码数量。

第一步是生成尽可能与真实验证码相似的验证码[3]。基于GAN的验证码生成器由两部分组成:验证码生成器,它用来生成与目标验证码尽可能相似的验证码;一个鉴别器,它试图从真实的验证码中识别出合成的验证码。当鉴别器无法识别出大部分合成验证码时,第一步结束,我们便可以使用训练好的验证码生成器所需要的用于训练的验证码。

第二步是预处理[3]。由于一些验证码的安全性特征(如空心字符等),我们的求解器难以直接从验证码中对其字符进行求解,因此在向求解器提供验证码图像之前,我们需要先对生成的验证码进行预处理操作,解除验证码安全性特征并标准化字体样式(如填充空心字符并标准化字符之间的间隙等)。经过预处理后,我们就可以得到简易的可以较为容易的进行训练的验证码图片。

第三步是训练基础求解器[3]。设置了验证码合成器和预处理模型后,我们生成了大量合成验证码及其标签(即对应的字符),并使用此数据集学习目标验证码方案的基本求解器。 我们的验证码求解器是卷积神经网络(CNN)。训练有素的求解器获取经过预处理的验证码图像,并输出相应的字符。

最后一步是对基础求解器进行微调[3]。在最后一步中,我们使用从目标网站收集的一小组手动标记的验证码,应用转移学习来优化基础求解器。转移学习使我们能够利用从人工验证码中学到的知识来降低收集和标记验证码的成本,并进一步提高基本模型的性能。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。