首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 46 毫秒
1.
劣质数据普遍存在于现代数据管理系统中,严重影响了数据的质量,从而降低了数据的实用性以及数据的价值,这为数据管理带来了新的挑战.当前,已经有不少管理劣质数据的数据模型被提出,实体关系数据模型是其中一种,其中每条元组表示一个现实世界中的实体.该模型允许劣质数据的存在,给出了衡量数据质量的方法,并且可根据用户对结果质量的需求给出达到一定质量的查询结果.鉴于该模型的特点,传统的查询代价估计方法不再适用,需要新的代价估计技术.文中研究如何估计连接操作结果的大小,提出了在应用局部敏感Hash算法对属性值聚类的基础上,再进行采样估计的方法,并且在聚类过程中考虑数据质量对查询结果的影响.与传统随机采样方法对比,实验结果表明文中估计方法有更好的准确性.  相似文献   

2.
直方图是一种重要的数据查询工具.在数据库操作中查询操作需要进行代价估计,而操作代价的估计有多种方法.直方图估计法在所有估计法中是最容易使用和最容易维护的,它将关系中的全部元组进行归类设桶,对每个桶分别进行大小统计,继而求和,使代价统计值更接近于真实.结合实际课题应用,给出了将关系的连接转换为多种直方图的方法,以及如何利用直方图进行代价估计.  相似文献   

3.
李阳  高鹏  马骏 《计算机工程与设计》2007,28(18):4325-4328,4332
谓词选择率估计是关系数据库管理系统查询优化器决策的重要依据.提出了一种基于压缩直方图的谓词选择率估计方法.采用基于MCV和等高直方图的压缩直方图存储数据库的数据分布特征信息,给出了该压缩直方图的构建方法,研究了谓词选择率估计算法.该方法的有效性已经在实践中得到证明,能够取得准确的选择率估计结果,同时具有较低的构建代价.  相似文献   

4.
直方图是数据库系统中最常用的估算查询代价的一种工具,它将关系中的全部元组进行归类设桶,对每个桶分别进行大小统计,继而求和,使代价统计值更接近于真实。直方图方法在所有代价估计法中是最容易使用和最容易维护的,每一种直方图在代价估计精度上各不相同,使用中也各有其特点。结合实际课题应用,给出了将关系的连接转换为多种直方图的方法,以及如何利用直方图进行代价估计。  相似文献   

5.
连接操作是最昂贵且常用的数据库操作.在传统数据库系统中,主要的连接操作是等值连接操作,因此,传统的并行连接算法主要集中于并行等值连接操作.另外,随着XML在Web应用中变得越来越重要,XML已经成为Internet上一种新的数据交换标准.对XML数据的连接操作不同于传统数据库中的等值连接操作,它属于结构连接操作.以前适合等值连接操作的并行连接算法并不能有效地解决结构连接问题.因此,第1次提出了并行结构连接问题,并且通过应用直方图的思想于并行连接中,从而提出两种基本的并行XML结构连接算法、等高直方图连接算法和等宽直方图连接算法.实验表明这两种算法具有较好的性能.  相似文献   

6.
压缩数据库中一种自适应直方图的构建   总被引:1,自引:0,他引:1  
骆吉洲  李建中  王宏志 《软件学报》2009,20(7):1785-1799
直方图在查询优化过程中起着重要作用.在压缩数据库中利用查询处理的特点构建自适应直方图以便于查询优化或近似回答查询是尚待解决的问题.通过对查询缓冲池内的查询进行调度来追踪热点数据,并用查询结果中的反馈信息构建自适应直方图以加快自适应直方图的收敛速度.另外,还提出一种参数化方法来估计未被任何桶覆盖的区域中元组的个数.该直方图可以增量式地被维护.实验结果表明,这种直方图具有良好的平均精度、更快的收敛速度和更强的自适应能力.  相似文献   

7.
刘雪莉  王宏志  李建中  高宏 《软件学报》2015,26(6):1421-1437
按照元组描述的实体对其进行组织和查询处理,是一种管理劣质数据的有效方法.考虑到同一个实体的同一属性存在多个描述的值,因此,基于实体的数据库上的连接是支持多个值的相似性连接.与字符串的相似性连接相比较,实体的相似性连接在数据清洗、信息集成、模糊关键字查询、诈骗检测和文本聚集等领域有着更好的应用效果.通过建立双层索引结构,提出了实体数据库上相似性连接算法ES-JOIN.同时,该方法适用于解决集合中字符串模糊匹配的相似性连接问题,而传统的集合相似性连接只针对集合中元素精确匹配的情况.为了加速连接,还提出了过滤措施对算法进行优化,进一步给出了优化算法OPT_ES-JOIN.实验验证了ES-JOIN算法和OPT_ES-JOIN算法具有很好的效率和可扩展性.实验结果表明,过滤措施具有很好的过滤效果.  相似文献   

8.
马莎  杨波  李康顺 《计算机科学》2012,39(2):203-205
外包数据库中的连接查询比范围查询更困难,因为客户端需要验证连接结果的一致性,而传统的对单个表的 签名不能有效地支持对连接查询结果的直接验证。提出了使用哈希连接保证数据一致性的2种算法,它们分别通过 在服务器端和客户端计算哈希函数来实现连接查询。给出了这2种算法的详细描述,证明了它们满足一致性要求,而 且分析了算法在通信量、服务器端和客户端执行的代价。最后在实验中通过设置不同的参数对它们在服务器端和客 户端的运行时间进行了比较,总结了它们在实际应用中的优缺点。  相似文献   

9.
查询选择率估计是查询处理和优化中的关键之一。提出一种基于区域分布密度的方法,用于构造直方图,使其每个桶具有均匀分布或近似均匀分布,利用直方图估计查询选择率。实验结果表明,该方法对低维数据估计得到的查询选择率精度较高,并能对高维数据进行估计。  相似文献   

10.
项目简介:本技术方法是在获取的统计数据中使用压缩直方图推定多次元选择率,  相似文献   

11.
空间数据库中距离连接选择率估计方法研究   总被引:1,自引:0,他引:1  
通过综合分析和比较现有的选择率估计技术,提出了基于MBR缓冲区和直方图的距离连接估计方法,该方法基于空间对象的MBR缓冲区,只需要简单计算几个直方图统计量,就可以快速得到较为准确的估计结果.针对MBR缓冲区方法估计结果偏大的不足,提出一种利用线段分布特性基本定律实现距离连接选择率估计的新方法.该方法基于线段缓冲区,不需要遍历线段数据集,提高了估计效率,减少了估计结果的相对误差.实验结果证明,该文方法能够准确有效地进行空间距离查询选择率估计并且更加适合真实的数据集.  相似文献   

12.
估算查询结果大小的直方图方法之研究   总被引:11,自引:0,他引:11  
吴胜利 《软件学报》1998,9(4):285-289
直方图是许多商用数据库系统中最常用的一种估算查询结果大小的方法.从实用的观点来看,过去已提出的一些直方图方法有局限性,主要是它们不能保证估算值的准确程度.本文将提出两种新的直方图方法,它们不仅使用方便,而且可以保证所有的估算值均在给定的误差范围内.此外,本文还探讨了不同的数据分布对直方图的影响,通过运用一些重要的参数刻画数据分布,用以帮助生成效果较佳的直方图.  相似文献   

13.
提出了一种新的用于估算查询结果大小的直方图方法。方法的基本思想与人类的思维机制是一致的,即在划分数据时,使所有直方开始于相对前一直方发生较大波动的项,并且结束于相对本直方发生较大波动的项之前。关于新的直方图方法,该文进行了大量的模拟实验。实验结果表明,该直方图方法估算精确,实现效率高,有较好的实用价值。  相似文献   

14.
缪丰羽  王宏志 《软件学报》2018,29(10):3150-3163
在确定图上进行的相似性连接已有许多研究成果.然而,在实际应用中会有许多因素使得图结构数据变得不确定.研究了不确定图数据库上的相似性连接问题.采用联合概率分布表示法来描述图中边的不确定性,结合一种新的图的相似性度量方法,给出了不确定图数据库上的相似性连接的形式化定义,并设计了一组过滤策略来减少连接过程中候选图对的数量.大量的实验数据表明,所提出的方法具有较好的可行性和准确性.  相似文献   

15.
基于聚类的非清洁数据库的聚集查询处理算法   总被引:1,自引:0,他引:1  
现实数据库中的不完整数据、不一致数据、重复数据等非清洁数据为数据库的有效使用带来了影响,从包含非清洁数据的数据库中得到满足清洁度要求的统计分析结果,为数据库研究带来了新的挑战,聚集查询是统计分析的基础.面向非清洁数据,提出了有清洁度保证的聚集查询处理算法,用于处理包含group by子句的聚集查询.考虑到在非清洁数据中,同一个元组可能属于不同的分组,提出的方法是利用可重叠聚类的方法将数据库中的元组加以分组,从而得到考虑数据非清洁性的分组,以及基于这些分组计算得到的聚集结果及其以概率表达的清洁度.提出的方法适用于多种聚集函数以及包含选择条件的聚集查询.通过实验验证了方法的效率.  相似文献   

16.
相似性连接查询技术研究进展   总被引:1,自引:0,他引:1  
相似性连接查询,即查找相似的数据对象对,具有广泛的应用领域,例如相似网页检测、实体解析、数据清洗和相似图像检索等。相似性连接查询是当前大数据处理领域的热点问题之一。讨论了相似性连接查询面临的挑战;根据不同的标准对现有的相似性连接查询进行了分类;总结并比较了现有的字符串、集合、向量和图相似性连接算法;探讨了今后的研究重点和发展趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号