文献综述
网络爬虫是一种可以自主运行的智能程序,按照其自身的内部的参数以及一些预设条件,在无人为管理的条件下,利用web链接去获取html页面。
网络爬虫同时是搜索引擎的重要组成部分,换句话说如果没有网络爬虫的存在 ,就可能不存在搜索引擎。
例如百度 ,谷歌 ,雅虎爬虫定期访问大大小小的网站;网络购物通过爬虫来爬取物品做价格对比找出推荐价格优惠的产品。
网页爬虫的本质是要遍历基于网页的图结构中的所有或部分的节点,这些节点同时表示不同的网页链。
因此,其本质上遍历策略是一种图形搜索算法。
网页爬虫通常使用广度 优先搜索(BFS),深度优先搜索(DFS)和集中搜索来遍历于网页所构成的图。
随着数据需求量的越来越大,以前的集中式爬虫系统再也满足需求,于是研究人员将分布式系统与网络爬虫结合,达到一个大规模并且高效的数据爬取。
近十几年来,研究人员对分布式提出了自己的看法。
2011年 ,chen采用 Hash函数来映射网址,并提出了一种结合并行和分布式的调度策略来设计分布式网络爬虫。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
以上是文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。