文献综述
用户信息系统不仅能够对专题信息进行标准化数据管理,为其他业务应用提供数据支持,也为企业的业务决策提供了有力支持。但因传统管理系统依赖需求设计的局限性,已不能满足快速发展的网络应用。而管理信息系统的数据往往处于系统软件的封闭环境,数据生成和管理都有软件系统提供,这导致数据管理成本高、数据价值单一僵化等问题。而数据开放的管理信息系统,其数据来源动态且多样,打开其数据渠道,丰富数据来源的深度和广度,对未来的进一步数据分析奠定基础。
随着Internet迅猛发展,互联网拥有越来越庞大的用户群,且逐渐发展成为群众发布信息、获取信息和传递信息的主要载体。互联网环境中文言语信息爆炸性地增长,使互联网言语信息的挖掘与存储管理遇到新的问题。那么如何挖掘数据呢?没错,就是爬虫。
网络爬虫源自Spider(或Crawler、robots、wanderer)等的意译。网络爬虫的定义有广义和狭义之分,狭义的定义为:利用标准的http 协议,根据超级链接和Web文档检索的方法遍历万维网信息空间的软件程序。广义的定义为:所有能利用http协议检索Web文档的软件都称之为网络爬虫。
网络爬虫是一个功能很强大的自动提取网页的程序,它为搜索引擎从万维网下载网页,是搜索引擎的重要组成部分。它通过请求站点上的HTML文档访问某一站点。它遍历Web空间,不断从一个站点移动到另一个站点,自动建立索引,并加入到网页数据库中。网络爬虫进入某个超级文本时,利用HTML语言的标记结构来搜索信息及获取指向其他超级文本的URL地址,可以完全不依赖用户干预实现网络上的自动“爬行”和搜索。网络爬虫在搜索时往往采用一定的搜索策略。
传统的网络爬虫技术主要应用于抓取静态Web网页,随着AJAX/Web2.0的流行,如何抓取AJAX等动态页面成了搜索引擎急需解决的问题,因为AJAX颠覆了传统的纯HTTP请求/响应协议机制,如果搜索引擎依旧采用“爬”的机制,是无法抓取到AJAX页面的有效数据的。
万维网上有着无数的网页,包含着海量的信息,无孔不入、森罗万象。但很多时候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣、有价值的内容,但是纵然是进化到21世纪的人类,依然只有两只手,一双眼,不可能去每一个网页去点去看,然后再复制粘贴。使用爬虫可以为我们自动获取网页内容并可以按照指定规则提取相应内容,而信息管理系统可以将爬虫爬取的信息友好的展示出来。最后网络爬虫为现代互联网信息检索提供了有力的技术支持,也为未来开放的管理信息系统提供全面的数据解决方案。
[1] 李彬, 何静, 张岩. 管理信息系统的数据库设计[J]. 光盘技术, 2008(1):24-26.
[2]刘玲. 基于Web的实验室信息管理系统中数据库的设计[J]. 电脑与信息技术, 2010, 18(2):62-65.
[3]林孜阳, 穆雪, 焦博阳, 等. 本科生班导师管理系统设计与实现[J]. 无线互联科技, 2015(18):41-42.
以上是文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。