面向数组的数据查询模块设计与实现文献综述-查综述

课题解决的问题

如今，随着科学研究的不断进展，科学数据的数据量也在迅速海量化。无论是生物基因，

金融，航空航天，还是医药医疗等领域，这些科学数据的数据模型愈加复杂，科研工作者对科学数据的查询需求也在不断多样化。于是，采用数组作为存储模型的分布式科学数据管理系统应运而生。在数据查询过程中，聚集查询是一种十分常见的查询（如sum,count,squared xum,max,min等）。而科学数据数量巨大，取值范围更加广泛，如果采用所有数据的精确值，进行相应的数据处理，无疑会产生很大的空间开销，随着数据规模的增大，时间复杂度也会令人难以接受。于是，提出应用准确率较高的近似查询处理方法来优化科学数据的查询。

在本文中，拟采用位图索引来辅助科学数据的近似聚集查询处理。当然，近似估计还可以采用取样法和小波变换。当前，数据的近似处理大多是在关系数据的范围内研究的。但是，数组模型不同于关系模型的是，除了值分布状况还有空间分布。并且，直方图近似方法不支持空间分布，小波变换近似方法无法支持值分布，而取样近似方法对两种分布都不支持。所以，引入位图索引，作为整体数据的缩略结构，并结合二进制“与“，”或“和”非“操作，来进行对聚集查询的近似处理。并且，这种处理方法也不必进行数据重排布操作。

通过将对查询的近似处理整合到当今的科学数据管理系统中，降低了相应数据操作的时空复杂度，加速了查询处理，又不失准确性。

，

二、研究方法和技术路线

计划在Visual Studiio2008 平台上，采用C 变成实现此功能。下图展示了整体的实现路线：

对上面的路线图进行说明：

根据用户输入的数据，建立位图索引。之后进行equi-width bin操作(即将建立索引的属性的取值范围划分为若干等值区段，然后将每一个区段内的bitvector进行or操作，得到若干个bin bitvector)。下一步，实现pre-statistics,统计数据的个数，求和，平方和，最大值和最小值等统计量，并把pre-statistics和位图索引共同存储起来。此过程类似于程序的预处理过程。然后对查询中数值谓词条件和空间谓词条件进行分别处理：接着，对每一个bin bitvector进行如下处理：依照数值条件进行筛选，生成bitvector1;再按照空间条件，生成bitvector2.当然，birvector的个数会随着查询条件的增多而增加询。接下来，进行bitvector之间and操作，形成各自的final bitvector。建立计数数组，来统计各自final bitvector中“1”的个数,即满足条件的元素个数，并依次存入到计数数组中。在结合相应的pre-statistics统计量，按照近似统计量计算函数，计算近似查询值。.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是文献综述，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

面向数组的数据查询模块设计与实现文献综述

您可能感兴趣的文章

登录

您可能感兴趣的文章