首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
随着数据的爆炸式增加,不完整数据普遍存在,传统的数据修复方法对于海量数据处理代价过高,且不能彻底修复,在这些不完整的海量数据上进行满足给定需求的近似查询引起了学术界的关注.因此,提出一种基于压缩的海量不完整数据近似查询方法,该方法对属性值缺失字段进行标记,根据频繁查询条件对标记后的数据进行压缩,并建立对应索引;根据属性划分对索引文件再次压缩以节省存储空间,采用编码字典对索引压缩文件进行选择和投影操作,最终获得不完整数据的近似查询结果.实验表明,该方法能够快速定位不完整数据的压缩位置,提高了查询效率,节省了存储空间,并且保证了查询结果的完整性.  相似文献   

2.
基于不确定数据的查询处理综述   总被引:5,自引:0,他引:5  
崔斌  卢阳 《计算机应用》2008,28(11):2729-2731
不确定数据在一些重要应用领域中是固有存在的,如传感器网络和移动物体追踪。在不确定数据上使用传统的查询方法会使查询结果出现偏差,不能满足用户的需求。因此,基于不确定数据的查询处理受到了越来越多的关注。与在确定数据上查询不同,不确定数据上的研究工作将概率引入到数据模型中来衡量不确定对象成为结果集中元素的可能性。由于问题定义和数据模型的不同,不确定数据上的查询类型也多种多样。从问题定义、数据模型、剪枝策略和算法等角度,对基于不确定数据的范围查询、top-k查询以及skyline查询进行了介绍。  相似文献   

3.
随着互联网、物联网等信息技术的快速发展,多维数据日益增多,这些海量数据中往往伴随着大量的不完整数据,如何从海量不完整数据中高效地获取用户所需的近似的结果集是一个亟需解决的问题。针对海量高维的不完整数据集,提出了一种基于维度组合的Skyline查询算法,通过构建Rank List数据结构提高查询效率,并减少不完整数据对查询结果的影响;利用维度的不同组合,划分出查询子空间,并渐进地查询出每个子空间的最优先点,从而获得海量不完整数据集上均匀分布的Skyline点。实验结果表明,该算法与Iskyline算法相比,平均查询效率提高了85%,并且在数据量大、维度高时,较普通方法查询效率更高。  相似文献   

4.
图数据结构广泛应用于各种领域的数据建模.由于测量手段和问题特性的限制,数据的不确定性普遍存在.这种不确定性表现在图结构数据中,形成不确定图.之前对于不确定图数据上查询处理的研究,主要是在不确定的图结构数据上查找某一结构确定的图.然而,针对不确定的图数据,其查询很可能也是不确定的.该项工作主要是实现查询过程中的双向匹配,即对于一个不确定的查询,在不确定的图上,得到查询与图的一个可能性最大的匹配组合.这样的研究是具有现实意义的,通过不确定图上对于不确定查询的匹配,可以找到两个不确定结构间存在的最大相似结构,并度量其相似性.  相似文献   

5.
不完整大数据的分布式聚类填充算法   总被引:2,自引:0,他引:2  
传统大数据填充算法是根据整个数据集对缺失数据进行填充,使得填充值容易受到不同类别数据的干扰,导致填充结果不精确。针对该问题,给出不完整数据的相似度度量方法,使用近邻传播( AP )算法对不完整数据进行聚类。采用云计算技术优化AP聚类算法,实现一种基于MapReduce的分布式聚类算法,根据算法聚类结果将同一类数据对象划分到相同簇中,并利用同一类对象的属性值对缺失值进行填充。实验结果表明,该算法能实现不完整大数据的聚类,同时加快聚类速度,提高缺失数据的填充精度。  相似文献   

6.
不确定数据查询技术在军事、金融、电信等领域中起到了越来越重要的作用.不确定性数据在传感器网络、分布式Web Server及P2P系统等分布式系统中广泛存在.从这些系统中收集所有数据进行集中式查询将带来巨大的通信开销、时间延迟和存储代价.同时,由于不确定数据的特点,大多数集中式不确定查询算法在分布式环境下并不适用.给出不确定数据的最大值和Top-k聚集查询定义,并分别提出了基于过滤策略的分布式聚集算法.算法根据给出的3个过滤策略,利用数据的分布区间和概率进行筛选概率上限的计算,尽可能将不影响查询结果的数据抛弃.同时,算法以相对较小的代价归并保存并传输了计算最终查询结果所需要的不可丢弃数据.实验结果表明,在各类系统和数据条件下,过滤算法都能够正确地得到查询结果并显著降低系统的数据通信开销.  相似文献   

7.
通过分析在线聚集与在线动态重排序技术,结合近似查询处理和国会抽样方法,提出了在线分组聚集方案,该方案具有广泛的应用前景。  相似文献   

8.
随着内存容量的飞速扩大,出现了一些配备以GB计的内存的工作站。但现行的OLAP系统都没有充分利用大容量RAM,鉴于此,文章提出一种基于内存的数据立方查询处理系统。该系统采用一种二级索引内存数据结构,充分利用有限的内存空间,有效组织各数据小方的元组,实现了高效数据立方查询。  相似文献   

9.
数据缺失对聚类算法提出了挑战,传统方法往往采用均值或回归方法将不完整数据进行填充,再对填充后的数据进行聚类.为解决均值填充和回归填充等方法在数据缺失比率增大时填充精度以及聚类效果变差的问题,提出一种新的不完整数据相似度计算方法.以期望互信息为依据对数据集中的属性排序,充分考虑了数据集中与位置相关的属性值特征,以数据集本身元素作为缺失值填充的来源,对排序后的不完整数据集进行相似度填充计算,最后采用基于局部密度的聚类算法进行聚类.利用UCI机器学习库中的数据集验证本文填充聚类算法,实验结果表明,当数据集中缺失值增多时,算法对缺失值的容忍性较好,对缺失元素的恢复能力较强,填充精度以及最终聚类结果方面均表现良好.本文填充计算相似度的方法考虑数据集的每个属性值来对缺失值逐个填充,因而耗时较多.  相似文献   

10.
不完整数据的分析与填充一直是大数据处理的热点研究课题,传统的分析方法无法对不完整数据直接聚类,大部分方法先填充缺失值,然后对数据聚类。这些方法一般利用整个数据集对缺失数据进行填充,使得填充值容易受到噪声的干扰,导致填充结果不精确,进而造成聚类精度很低。提出一种不完整数据聚类算法,对不完全信息系统的相似度公式进行重新定义,给出不完整数据对象间的相似度度量方式,进而直接对不完整数据聚类。根据聚类结果将同一类对象划分到相同的簇中,通过同一类对象的属性值对缺失值进行填充,避免噪声对填充值的干扰,提高填充结果的精确性。实验结果表明,提出的方法能够对不完整数据进行聚类,并有效提高缺失数据的填充精度。  相似文献   

11.
Zhang  An-Zhen  Li  Jian-Zhong  Gao  Hong 《计算机科学技术学报》2019,34(6):1203-1216
Journal of Computer Science and Technology - Incomplete data has been a longstanding issue in the database community, and the subject is yet poorly handled by both theories and practices. One...  相似文献   

12.
基于Hadoop 的高效连接查询处理算法CHMJ   总被引:3,自引:0,他引:3  
赵彦荣  王伟平  孟丹  张书彬  李均 《软件学报》2012,23(8):2032-2041
提出了一种并行连接查询处理算法CoLocationHashMapJoin(CHMJ).首先,设计了多副本一致性哈希算法,将具有连接关系的表根据其连接属性的哈希值在机群中进行分布,在提升了连接查询处理中数据本地性的同时,保证了数据的可用性;其次,基于多副本一致性哈希数据分布,提出了HashMapJoin并行连接查询处理算法,有效地提高了连接查询的处理效率.CHMJ算法在腾讯公司的数据仓库系统中进行了应用,结果表明,CHMJ连接查询的处理效率比Hive系统提高了近5倍.  相似文献   

13.
潘立强  李建中  骆吉洲 《软件学报》2010,21(4):1020-1030
由于无线传感器网络的能源有限,且在许多应用中Skyline 查询的部分结果即可满足用户需求,提出了一 种近似Skyline 查询处理算法,在满足用户查询需求的前提下最大化地节省能量.该算法仅需无线传感器网络中的部 分传感器节点回传其感知数据即可计算出Skyline 查询的一个近似结果集.由于该算法在处理查询时,每个传感器节 点只需考察自身数据信息即可决定是否回传其感知数据,而无须与其他传感器节点的感知数据进行比较,因此可以 避免大量的网内通信开销,从而节省网络能源.模拟环境下的大量实验结果表明,该算法可以根据用户的应用需求, 节能地处理传感器网络中的近似skyline 查询.  相似文献   

14.
基于模式集成语义的查询处理   总被引:1,自引:0,他引:1  
石祥滨  张斌  于戈  郑怀远 《软件学报》1998,9(5):321-326
在采用面向对象模型作为公共数据模型的多数据库系统中,基于模式集成语义的查询处理不仅要实现针对集成模式查询到针对输出模式查询的转换,而且要从语义上尽可能减少回答用户查询所需数据,保证对象引用的正确性.为了达到这个目标,提出了一些新的概念及基于模式集成语义的查询处理规则和路径表达式的查询处理方法.  相似文献   

15.
数据流相似性查询广泛应用于智能家居、环境监测等领域.当前以LCSS(longest common subsequence)作为相似性测度函数的研究并不多.NAIVE算法使用基本动态规划方法计算测度函数值,通过该值与相似阈值的比较得到查询结果,对基于LCSS的数据流相似性查询问题进行研究.针对NAIVE算法必须在动态规划矩阵所有成员取值的计算完成后才能得到查询结果的缺点,提出了一种基于PS(possible solution)-CC(column critical)域优化策略的数据流相似性查询处理算法.该算法划定了每个窗口上动态规划矩阵的PS域和CC域,很好地利用了这2个域中成员所具有的性质和相似性查询的特点,无须获得测度函数的最终值便可得到查询结果,省略了很多矩阵成员的计算.实验部分证明了该算法的有效性,与同类算法相比,在处理具有更高精度结果要求的查询时效果更好.  相似文献   

16.
网内查询处理需要让网络中各个节点共同承担查询任务,其基本问题是如何采取合适的策略将各个查询映射到网络节点上,以使得网络传输数据量和网络延迟达到最小.基于在查询间共享数据流的思想,提出了基于查询包含和查询合并的数据流共享策略,并建立了相应的收益模型,最后通过实验分析对比了两种策略的运行效果.  相似文献   

17.
基于XQuery的异构数据源查询处理   总被引:2,自引:0,他引:2       下载免费PDF全文
严小泉  刘渊 《计算机工程》2009,35(14):87-89
异构数据源的集成问题是当前数据处理领域内研究的热点,它能更有效地利用信息资源,更好地实现数据共享。介绍一种基于Mediator-Wrapper中间层的异构数据源集成系统框架,对XQuery查询处理过程及其关键问题,如查询分解和优化技术进行深入研究,并结合实例进一步说明异构数据源中查询分解和优化的具体实现。  相似文献   

18.
数据仓库查询处理中的一种多表连接算法   总被引:20,自引:2,他引:20  
蒋旭东  周立柱 《软件学报》2001,12(2):190-195
在进行数据仓库的OLAP(onlineanalyticalprocessing,联机分析处理)查询处理时,经常会涉及到多表连接操作,因此,提高多表连接的性能就成了数据仓库领域的关键性问题.基于数据仓库的星型模式,给出了一种新的多表连接算法(M-Join).与传统关系数据库管理系统的多表连接查询处理相比,该算法充分考虑了数据仓库中的数据本身和多表连接的特点,采用对多个表进行一次性连接的方法,使得查询的性能有明显的改善.同时,还给出了算法的实验结果和分析.  相似文献   

19.
传感器网络中基于蚁群算法的实时查询处理   总被引:1,自引:0,他引:1  
余建平  林亚平 《软件学报》2010,21(3):473-489
无线传感器网络因不同应用而被广泛部署于各种场合,通常被视为分布式数据库.可以通过向该类数据库发布查询请求来获取事件相关的响应信息.一些具有实时需求的应用对查询时延要求较高,而目前存在的查询算法通常不能很好地满足实时查询应用的需求.针对此类特定应用,提出了基于蚁群优化的实时查询处理算法,该算法采用基于事件重要性的分环存储策略和基于蚁群算法的分布式搜索机制,充分利用蚁群优化算法的自组织和正反馈等特征,综合提高查询处理算法的节能性、实时性及查询请求接受率,为分布式动态并行实时查询应用提供新的思路.执行过程仅需局  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号