共查询到17条相似文献,搜索用时 109 毫秒
1.
数据世系管理技术研究综述 总被引:15,自引:1,他引:15
世系描述了数据产生、并随时间推移而演变的整个过程,它的应用领域很广,包括数据质量评价、数据核查、数据恢复和数据引用等.数据世系大致可分为不同数据源之间的数据演化过程和同一数据源内部的数据演化过程,即模式级和实例级数据演化过程.文中以模式级和实例级数据世系的表示、查询为主线综述数据世系的研究进展.模式级世系部分主要介绍了查询重写和模式映射的世系追踪技术,实例级世系部分则从关系型数据、XML数据、流数据三方面总结了新近的研究进展.文中还综述了跟踪不确定性数据及其演化过程的研究进展.最后,列举了数据世系管理的应用,并讨论了世系分析研究面临的挑战及未来的研究方向. 相似文献
2.
RFID不确定数据管理技术 总被引:5,自引:1,他引:4
有关不确定数据管理的研究是当前国际数据库研究领域的一个热点。不确定性作为RFID系统的一个重要特征,贯穿于RFID应用的整个生命周期。RFID系统主要存在两类不确定性:一类是客观不确定性,即原始数据客观存在不完整和不准确,这是造成RFID系统数据不确定的最直接原因;另一类是主观不确定性,这是由于对漏读数据的填补、对位置信息的推测、对事件语义的抽取和对事件发生时间的估计而产生的不确定性。详细归纳了RFID系统中数据不确定性的来源,介绍了RFID不确定数据管理技术的研究现状,并指出了目前面临的挑战。 相似文献
3.
海洋台站不确定性数据表示方法的研究 总被引:1,自引:0,他引:1
针对当前海洋台站数据存在不确定性的现状,在分析Trio和MayBMS两种不确定数据表示方法的基础上,结合海洋台站数据属性不确定的特点,提出一种适合于海洋台站不确定性数据的表示方法。实验结果表明,该方法能够消除现有表示方法可能产生的冗余信息并有效减少生成的关系表的数量,为今后海洋台站不确定性数据高效查询方法的研究奠定了基础。 相似文献
4.
介绍非确定性数据处理的几种主流技术,即数据流、移动数据、传感器网络和数据世系的管理技术,描述这些技术的内涵、发展现状和挑战.指出该技术在我国未来建设智慧城市作为基础性支撑技术的重要性。 相似文献
5.
由于不确定性数据大量存在于传感器网络,移动计算,军事,电信等应用领域,传统的频繁项集挖掘算法难以适用到不确定性数据挖掘。为了解决这个问题,本文提出了一种快速有效的算法,该算法基于可能世界模型,只需要扫描一次数据库,且没有建树的过程,通过实验证明,我们提出的算法比UF_Growth算法效率更高。 相似文献
6.
Top-k查询是Web和多媒体搜索、决策支持、分布式系统等众多领域中最重要的查询之一,它返回数据集合中k个最关键的元组.大型数据集合往往包含一系列分类型属性,获取对目标属性影响最大的k个分类型属性值对于许多应用中也非常重要.研究了这个问题,正式定义了k-AKC和PKC两种查询,并设计相应的查询处理算法.实验结果表明,改良算法PKCQ+具有较佳的有效性和高效性. 相似文献
7.
8.
不确定Skyline查询技术研究 总被引:3,自引:0,他引:3
当前不确定数据广泛存在于诸如传感器网络、RFID网络、基于位置服务、移动对象管理网上购物和市场监控等各种实际应用中.不确定Skyline查询作为不确定数据管理的一个重要方面,由于其在决策制定、市场分析、环境监控和数据挖掘等方面的重要作用,近年来在数据库和网络计算领域受到广泛关注.首先,概述了各种不确定数据类型上的Skyline查询定义,包括离散、连续概率分布模型以及不完全数据上的Skyline查询定义;其次,分析了不确定Skyline查询的特点,并在此基础上综述了现有的各种不确定数据集上的集中式和分布式Skyline查询方法,重点分析了各种算法的原理和优缺点;再次,介绍了不确定数据流上的Skyline查询定义并综述了各种不确定数据流上的Skyline查询方法;最后,基于最新研究动态指出了未来不确定Skyline查询研究的趋势. 相似文献
9.
10.
针对不确定数据集进行离群点检测,设计了基于密度的不确定数据的局部离群因子(Uncertain Local Outlier Factor,ULOF)算法.通过建立不确定数据的可能世界模型来确定不确定对象在可能世界中的概率.结合传统的LOF算法推导出ULOF算法,根据ULOF值判断不确定对象的局部离群程度;然后对ULOF算法的效率性和准确性进行了详细分析,提出了基于网格的剪枝策略、k最近邻查询优化来减少数据的候选集;最后通过实验证明了ULOF算法对不确定数据检测的可行性和效率性,优化后的方法有效地提高了异常检测准确率,降低了时间复杂度,改善了不确定数据的异常检测性能. 相似文献
11.
不确定数据普遍存在于大量应用之中,如在传感器网络、P2P系统、移动计算及RFID(Radio Frequency IDentification)等,研究者已经提出了多种针对不确定数据库的数据模型,其核心思想都源自于可能世界模型。针对可能世界模型能够演化出数量远大于不确定数据库规模的可能世界实例,文中提出一种减小可能世界的RPW—kBest算法,此算法利用概率和评定条件进行筛选,尽可能将不影响查询结果的数据抛弃,使之在最小的搜索空间内完成查询处婵过程,以降低存储开销。实验结果表明,此算法能正确的得到查询结果并显著提高查淘效率和降低内存使用。 相似文献
12.
不确定性Top-K 查询处理 总被引:1,自引:0,他引:1
高效Top-K查询处理在涉及大量数据交互的应用中是一项重要技术,随着应用中不确定性数据的大量涌现,不确定性数据的管理逐渐引起人们的重视.不确定性数据上Top-K查询从语义和处理上都呈现出与传统Top-K查询不同的特点.在主流不确定性数据模型和可能世界语义模型下,学者们已经提出了多种不确定性Top-K查询的语义和处理方法.介绍了当前不确定性Top-K查询的研究工作,并对其进行分类,讨论包括语义、排序标准、算法以及应用等方面的技术.最后提出不确定性Top-K查询面临的挑战和下一步的发展方向. 相似文献
13.
14.
Outlier detection on data streams is an important task in data mining. The challenges become even larger when considering uncertain data. This paper studies the problem of outlier detection on uncertain data streams. We propose Continuous Uncertain Outlier Detection (CUOD), which can quickly determine the nature of the uncertain elements by pruning to improve the efficiency. Furthermore, we propose a pruning approach -- Probability Pruning for Continuous Uncertain Outlier Detection (PCUOD) to reduce the detection cost. It is an estimated outlier probability method which can effectively reduce the amount of calculations. The cost of PCUOD incremental algorithm can satisfy the demand of uncertain data streams. Finally, a new method for parameter variable queries to CUOD is proposed, enabling the concurrent execution of different queries. To the best of our knowledge, this paper is the first work to perform outlier detection on uncertain data streams which can handle parameter variable queries simultaneously. Our methods are verified using both real data and synthetic data. The results show that they are able to reduce the required storage and running time. 相似文献
15.
基于距离的不确定离群点检测 总被引:4,自引:0,他引:4
在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术.这项技术在确定性数据中已经得到了深入的研究,但在新兴的不确定数据领域却是一项新的研究课题.在无线传感器网络、数据集成和数据挖掘等技术中使用不确定数据模型更能真实反映现实世界,进一步提高这些技术的实际可行性.针对不确定数据,提出新的离群点定义.提出基于距离的不确定数据离群点检测的高效过滤方法,包括基础过滤方法b-RFA和改进方法o-RFA,最后提出高效概率计算方法DPA.b-RFA方法利用非离群点的过滤性质,减少检测次数.o-RFA方法通过挖掘数据分布信息对b-RFA方法作出改进,进一步提高过滤效率.DPA方法找到概率求解中的递推规律,极大提高了单点检测效率.实验结果显示:提出的方法可以有效地减少候选集,降低搜索空间,改善在不确定数据上的查询性能. 相似文献
16.
应用需求的发展衍生各种查询类型,Top-k查询是交互环境下一种重要查询类型.由于数据的不确定性,传统数据上的Top-k查询技术和方法不能直接应用于不确定数据查询.在已有不确定数据上Top-k查询算法的基础上,提出基于二叉树的不确定数据上Top-k查询算法BTreeU-Topk;为了提高算法执行效率,对二叉树进行修剪操作进而提出BTreeOPTU-Topk和BTreePU-Topk算法.实验结果表明,BTreeU-Topk,BTreeOPTU-Topk以及BTreePU-Topk算法在不同数据分布以及k值增长时均优于现有算法. 相似文献
17.