基于爬虫的分布式数据采集及可视化系统文献综述-查综述

文献综述

网络爬虫是一种可以自主运行的智能程序，按照其自身的内部的参数以及一些预设条件，在无人为管理的条件下，利用web链接去获取html页面。

网络爬虫同时是搜索引擎的重要组成部分，换句话说如果没有网络爬虫的存在，就可能不存在搜索引擎。

例如百度，谷歌，雅虎爬虫定期访问大大小小的网站；网络购物通过爬虫来爬取物品做价格对比找出推荐价格优惠的产品。

网页爬虫的本质是要遍历基于网页的图结构中的所有或部分的节点，这些节点同时表示不同的网页链。

因此，其本质上遍历策略是一种图形搜索算法。

网页爬虫通常使用广度优先搜索(BFS)，深度优先搜索(DFS)和集中搜索来遍历于网页所构成的图。

随着数据需求量的越来越大，以前的集中式爬虫系统再也满足需求，于是研究人员将分布式系统与网络爬虫结合，达到一个大规模并且高效的数据爬取。

近十几年来，研究人员对分布式提出了自己的看法。

2011年，chen采用 Hash函数来映射网址，并提出了一种结合并行和分布式的调度策略来设计分布式网络爬虫。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是文献综述，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。