- 课题解决的问题
如今,随着科学研究的不断进展,科学数据的数据量也在迅速海量化。无论是生物基因,
金融,航空航天,还是医药医疗等领域,这些科学数据的数据模型愈加复杂,科研工作者对科学数据的查询需求也在不断多样化。于是,采用数组作为存储模型的分布式科学数据管理系统应运而生。在数据查询过程中,聚集查询是一种十分常见的查询(如sum,count,squared xum,max,min等)。而科学数据数量巨大,取值范围更加广泛,如果采用所有数据的精确值,进行相应的数据处理,无疑会产生很大的空间开销,随着数据规模的增大,时间复杂度也会令人难以接受。于是,提出应用准确率较高的近似查询处理方法来优化科学数据的查询。
在本文中,拟采用位图索引来辅助科学数据的近似聚集查询处理。当然,近似估计还可以采用取样法和小波变换。当前,数据的近似处理大多是在关系数据的范围内研究的。但是,数组模型不同于关系模型的是,除了值分布状况还有空间分布。并且,直方图近似方法不支持空间分布,小波变换近似方法无法支持值分布,而取样近似方法对两种分布都不支持。所以,引入位图索引,作为整体数据的缩略结构,并结合二进制“与“,”或“和”非“操作,来进行对聚集查询的近似处理。并且,这种处理方法也不必进行数据重排布操作。
通过将对查询的近似处理整合到当今的科学数据管理系统中,降低了相应数据操作的时空复杂度,加速了查询处理,又不失准确性。
,
二、研究方法和技术路线
计划在Visual Studiio2008 平台上,采用C 变成实现此功能。下图展示了整体的实现路线:
对上面的路线图进行说明:
根据用户输入的数据,建立位图索引。之后进行equi-width bin操作(即将建立索引的属性的取值范围划分为若干等值区段,然后将每一个区段内的bitvector进行or操作,得到若干个bin bitvector)。下一步,实现pre-statistics,统计数据的个数,求和,平方和,最大值和最小值等统计量,并把pre-statistics和位图索引共同存储起来。此过程类似于程序的预处理过程。然后对查询中数值谓词条件和空间谓词条件进行分别处理:接着,对每一个bin bitvector进行如下处理:依照数值条件进行筛选,生成bitvector1;再按照空间条件,生成bitvector2.当然,birvector的个数会随着查询条件的增多而增加询。接下来,进行bitvector之间and操作,形成各自的final bitvector。建立计数数组,来统计各自final bitvector中“1”的个数,即满足条件的元素个数,并依次存入到计数数组中。在结合相应的pre-statistics统计量,按照近似统计量计算函数,计算近似查询值。.
以上是文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。