首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 546 毫秒
1.
不确定性Top-K 查询处理   总被引:1,自引:0,他引:1  
李文凤  彭智勇  李德毅 《软件学报》2012,23(6):1542-1560
高效Top-K查询处理在涉及大量数据交互的应用中是一项重要技术,随着应用中不确定性数据的大量涌现,不确定性数据的管理逐渐引起人们的重视.不确定性数据上Top-K查询从语义和处理上都呈现出与传统Top-K查询不同的特点.在主流不确定性数据模型和可能世界语义模型下,学者们已经提出了多种不确定性Top-K查询的语义和处理方法.介绍了当前不确定性Top-K查询的研究工作,并对其进行分类,讨论包括语义、排序标准、算法以及应用等方面的技术.最后提出不确定性Top-K查询面临的挑战和下一步的发展方向.  相似文献   

2.
随着移动互联网的快速发展以及信息技术的普遍应用,在许多应用中都产生了海量、不确定性数据,包括金融、军事、位置服务、医疗以及气象等。然而,传统的确定性数据管理方法很难管理不确定数据,亟需开发新型数据管理方法。可能世界模型被广泛用于为不确定数据建模,通过该模型可以衍生出诸多确定性的可能世界实例。不确定性数据流是指高速到达的海量不确定元组序列,因而不确定数据流管理比不确定性静态数据管理更具挑战性。面向于不确定数据流的ER-Topk查询是一个典型问题,但是处理复杂度高。提出一种近似算法来处理该查询,具有较小的空间复杂度;同时,还通过搜索策略优化来进一步提升查询处理效率。实验结果验证了所提方法的有效性和高效性。  相似文献   

3.
孙平平  刘方爱 《微机发展》2011,(10):70-72,76
不确定数据普遍存在于大量应用之中,如在传感器网络、P2P系统、移动计算及RFID(Radio Frequency IDentification)等,研究者已经提出了多种针对不确定数据库的数据模型,其核心思想都源自于可能世界模型。针对可能世界模型能够演化出数量远大于不确定数据库规模的可能世界实例,文中提出一种减小可能世界的RPW—kBest算法,此算法利用概率和评定条件进行筛选,尽可能将不影响查询结果的数据抛弃,使之在最小的搜索空间内完成查询处婵过程,以降低存储开销。实验结果表明,此算法能正确的得到查询结果并显著提高查淘效率和降低内存使用。  相似文献   

4.
近年来,随着计算机技术的迅猛发展,其领域迎来了大数据时代。随着大数据的出现,传统的关系型数据库已经不能满足高储存量的要求,此时成本低廉、有着良好并行性和伸缩性的云数据库应运而生,它采用键值对数据模型和分布式的计算环境。但是海量数据在Key-value数据库中的查询效率低下、实时性差等问题又普遍存在。为了解决查询效率低下这一问题,将多维数据模型和索引技术应用于Key-value数据库,将事实数据以多维的形式进行存储并在多维模型上建立索引以加快查询速度。论文将系统地描述多维数据模型的建立和索引技术的实现,最后简单地和主流Key-value数据库进行优缺点对比。  相似文献   

5.
异构数据源数据集成的研究   总被引:2,自引:0,他引:2       下载免费PDF全文
对象代理模型可以作为数据集成的一种通用数据模型。通过建立代理对象和源对象,查询处理的对应关系也能够较好地实现,应用可以将不同的、对于代理对象的查询处理翻译成对于局部数据源源对象的查询处理,也可以把对局部数据源的查询结果以用户应用想要的方式返回。对象代理模型可在Smalltalk环境中实现。本文讨论如何在Smalltalk
k环境中实现基于对象代理模型的异构信息源的集成。  相似文献   

6.
随着数据时代的发展,劣质数据越来越普遍存在于数据库中,严重影响了数据的质量,这给数据管理带来了新的挑战.目前,已经有很多管理劣质数据的数据模型面世,实体数据模型就是其中一种,模型以每条元组表示一个现实世界中的实体,允许劣质数据的存在,鉴于该模型的特点,在进行查询操作时,要根据查询语句和数据的相似程度判断数据是否满足用户需求,因此在实体数据模型相似判断的查询操作中,统计数据库中某条记录大约可以和多少记录相似即能为查询优化工作做一定的贡献,本文就如何获取这个统计量展开研究并提出一种有效的聚类算法解决这个问题。  相似文献   

7.
维空间的Skyline查询处理技术是近年来数据库技术领域的一个研究重点和热点.目前所有的研究工作都是直接在原始数据表上执行关系查询代数操作来获得最终的结果集,然而,随着原始数据表的数据量和维目标个数的增大,这些研究工作将不再适用.基于此,首次研究Skyline集合上的查询代数操作,使得Skyline查询处理的输入数据来自于小规模的Skyline结果集,而非海量的原始数据表.并且,首次给出一个集成多维对象集合和该对象集合上的Skyline结果集的形式化模型,该模型适合目前Skyline查询计算的应用,并在该模型的实例上研究Skyline集合的查询代数操作.同时,给出查询代数体系的代价评估模型.实验表明,给出的数据模型和查询代数体系具有有效性和实用性.  相似文献   

8.
概率XML数据管理技术研究进展   总被引:2,自引:0,他引:2  
随着网络应用的快速发展,XML数据已大量存在于当前的信息社会,使得XML类型的数据成为当前主流的数据形式,并已经成为Internet中进行数据交换和表示事实上的标准.由于客观世界的复杂性,不确定性是数据常见的内在属性,因此不确定的信息是普遍存在的.通常不确定信息以概率值的形式在XML文件(称为概率XML文件)中表示,因此,研究表示和处理概率XML数据将成为一个新的研究领域.自2001年以来,概率XML数据管理技术取得了一系列研究成果.从概率XML数据模型、PXML代数、查询、原型系统等几个方面综述了概率XML数据管理的研究进展,讨论了目前存在的主要问题和需要进一步研究的方向.  相似文献   

9.
当前,许多大的WEB站点的信息和数据呈现出结构化或半结构化的特点,因而可经抽象,作为类似关系数据库或者面向对象数据库并加以处理,以提高操作效率,特别是在此基础上进行的查询操作。但查询这些抽象的结构化或半结构化的视图需要新的技术。由于数据存储比较分散,并且多数以HTML、XML等形式存放,因而网络访问成为主要的查询代价构成要素。为此通过利用WEB数据库的冗余来减少网络访问。文章采用数据模型Araneus的一个子集作为数据模型,并利用链接约束、包含约束、范围约束以及多种规则重写关系代数表达式,以期达到优化查询结果的目的。  相似文献   

10.
周帆  李树全  肖春静  吴跃 《计算机应用》2010,30(10):2605-2609
传感器网络等技术的广泛应用产生了大量不确定数据。近年来,对于不确定数据的处理和查询成为数据库和数据挖掘领域研究的热点。其中,传统关系数据库中的top-k查询和排序查询怎样拓展到不确定数据是其中的焦点之一。研究近年来提出的不确定数据库上top-k查询和排序查询算法,归纳和比较目前各种不同查询算法所适应的语义世界和应用场景,并详细分析各种算法的执行效率和算法复杂度。另外,对于不确定数据top-k查询和排序查询所面临的挑战和可能的研究方向进行了总结。  相似文献   

11.
尽管关系数据库有很多优势,但它缺乏一种处理非确定性数据的能力.目前,已经提出了几种将非确定性结合到关系数据库模型的方法,它们对关系数据库模型做了诸多扩展.但空值问题依旧存在,一些模型根本就没有考虑空值因素.这违背了非确定性数据库要更加真实地反应现实世界的初衷.为此,给出了一种非确定性数据库系统中空值处理方法,改进现有非确定性数据库模型中对空值处理不完善的情况.  相似文献   

12.
由于不确定性数据大量存在于传感器网络,移动计算,军事,电信等应用领域,传统的频繁项集挖掘算法难以适用到不确定性数据挖掘。为了解决这个问题,本文提出了一种快速有效的算法,该算法基于可能世界模型,只需要扫描一次数据库,且没有建树的过程,通过实验证明,我们提出的算法比UF_Growth算法效率更高。  相似文献   

13.
离群点检测是数据管理领域中的热点问题之一,在医疗诊断、金融诈骗、环境监测等领域中具有广泛的应用。目前,随着传感器等设备在数据采集方面的应用,人们发现数据的不确定性普遍存在。与确定性数据相比,挖掘出不确定数据集中潜在的富有价值的信息变得十分困难。针对上述问题,提出了一种快速的不确定离群点检测算法FODU(Fast Outlier Detection approach on Uncertain data sets)。采用分层次划分思想给出了索引的构建策略,这种索引结构不仅克服了传统索引对多维数据管理的局限性,而且能够被快速地进行空间剪枝;为了快速地挖掘出不确定离群点,提出了高效的过滤方法。该方法通过批量过滤与单点过滤两个过程减少了大量的冗余计算,从而提高了检测效率,为了避免可能世界的空间膨胀,给出了数据对象离群概率值的计算方法。通过实验验证了所提算法的有效性,结果表明,相对于现有研究,该算法可以显著提高不确定离群点的检测效率。  相似文献   

14.
The analysis of relationships in databases for rule derivation   总被引:2,自引:0,他引:2  
Owing to the rapid growth in the sizes of databases, potentially useful information may be embeded in a large amount of data. Knowledge discovery is the search for semantic relationships which exist in large databases. One of the main problems for knowledge discovery is that the number of possible relationships can be very large, thus searching for interesting relationships and reducing the search complexity are important. The relationships can be represented as rules which can be used in efficient query processing. We present a technique to analyze relationships among attribute values and to derive compact rule set. We also propose a mechanism and some heuristics to reduce the search complexity for the rule derivation process. An evaluation model is presented to evaluate the quality of the derived rules. Moreover, in real world, databases may contain uncertain data. We also propose a technique to analyze the relationships among uncertain data and derive probabilistic rules.  相似文献   

15.
Data mining is a method for extracting useful information that is necessary for a system from a database. As the types of data processed by the system are diversified, the transformed pattern mining techniques for processing these type of data have been proposed. Unlike the traditional pattern mining methods, erasable pattern mining is a technique for finding the patterns that can be removed by coming with a small profit. Erasable pattern mining should be able to process data by considering both the environment that the data are generated from and the characteristics of the data. An uncertain database is a database that is composed of uncertain data. Since erasable patterns discovered from uncertain data contain significant information, these patterns need to be extracted. In addition, databases gradually increase, because the data from various fields is generated and accumulated over data streams. Data streams should be processed as intelligently as possible to provide the useful data to the system in real time. In this paper, we propose an efficient erasable pattern mining algorithm that processes uncertain data that is generated over data streams. The uncertain erasable patterns discovered through the suggested technique are more meaningful information by considering the probability of the item and the profit. Moreover, the proposed method can perform efficient mining operations by using both tree and list structures. The performance of the suggested algorithm is verified through the performance tests compared with state-of-the-art algorithms using real data sets and synthetic data sets.  相似文献   

16.
According to the soundness and completeness of information in databases,the expressive form and the semantics of incomplete information are discussed in this paper.On the basis of the discussion,the current studies on incomplete data in relational databases are reviewed.In order to represent stochastic uncertainty in most general sense in the real world,probabilistic data are introduced into relational databases.An extended relational data model is presented to express and manipulate probabilistic data and the operations in relational algebra based on the extended model are defined in this paper.  相似文献   

17.
现实世界中各数据元组的概率维构成不确定数据集合,在不确定数据集中的各数据元组间存在大量相关性问题.将不确定性理论应用于真实旅游数据中,并引出旅游收入统计中的重复计算问题.为了解决这一问题,需要解决道路相关度的度量问题.借助传统的Moran's Index,提出了通用空间相关性度量方法及受限空间的自相关指标,对MapInfo格式的贵州省城市主干道数据进行了实验,实验结果表明:uncertain-srp算法的时间复杂性满足线性规律,其内存空间几乎不受影响,进一步表明了算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号