首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
异构数据库集成中产生了相似重复记录,但数量是有限的,采用传统的SNM算法进行检测,需要在窗口内对所有记录进行比对,效率不高。针对这一缺陷,提出一种基于长度过滤和有效权值的SNM改进算法,在窗口内根据两条记录的长度比例首先将不可能构成相似重复记录的数据排除在外,减少了记录比较的次数,提高了检测效率;进一步通过设置属性有效性因子和权重比例计算有效权值,利用有效权值进行检测,提高了查全率和查准率。实验证明改进算法在各种性能上均优于SNM算法。  相似文献   

2.
数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(Sorted-Neighborhood Method, SNM)时间效率和准确率均不高。针对SNM算法的缺陷,提出了一种基于长度过滤和动态容错的SNM改进算法。根据两条记录的长度比例和属性缺失情况,首先排除一部分不可能构成相似重复记录的数据,减少比较次数,提高检测效率;进一步提出了动态容错法,校准字段相似度评判结果,解决了因属性缺失而误判的问题,提高了准确率。针对实际数据集的实验分析表明,在相同的运算环境下,优化算法在准确率和时间效率上有明显优势。  相似文献   

3.
周典瑞  周莲英 《计算机应用》2013,33(8):2208-2211
针对海量数据下相似重复记录检测算法的低查准率和低效率问题,采用综合加权法和基于字符串长度过滤法对数据集进行相似重复检测。综合加权法通过结合用户经验和数理统计法计算各属性的权重。基于字符串长度过滤法在相似检测过程中利用字符串间的长度差异提前结束编辑距离算法的计算,减少待匹配的记录数。实验结果表明,通过综合加权法计算的权重向量更加全面、准确反映出各属性的重要性,基于字符串的长度过滤法减少了记录间的比对时间,能够有效地解决海量数据的相似重复记录检测问题。  相似文献   

4.
基于伸缩窗口和等级调整的SNM改进方法   总被引:1,自引:0,他引:1  
对基本邻近排序算法(basic sorted-neighborhood method, SNM)进行分析, 指出其不足, 提出了SNM算法的一种改进方法。采用变步长伸缩窗口, 动态改变检测窗口大小, 避免漏配问题, 并减少不必要的比较。采用动态调整等级法, 根据记录相似度调整字段等级, 并通过等级法将字段等级转换为权重, 解决了人为赋予固定权重主观性强、不准确的问题。通过对实际系统中的数据进行测试, 验证了方法的有效性和优越性。同时, 这两种方法适用于大多数基于排序—合并的相似重复记录检测方法, 提高了相应方法的效率和准确度。  相似文献   

5.
一种改进的相似重复记录检测算法   总被引:1,自引:0,他引:1  
数据仓库中相似重复记录的清洗对于提高数据质量有着重要意义,传统的判重算法有SNM算法、MPN算法及KNN算法等。针对MPN算法判重精度和时间效率不高等缺陷,提出一种改进的MPN算法。根据记录属性的重要性分别设定属性权值,将属性切分为原子,进一步计算原子的权值,通过判定属性相似度进而判定记录相似度,提高查准率和查全率。采用均分大数据集为若干数据子集,并行采用MPN算法进行判重,提高判重时间效率。理论和实验分析表明该方法提高了相似重复记录检测的准确率和时间效率。  相似文献   

6.
结合RFID系统数据的数据结构,采用控制变量的方法,评估使用SNM(sorted neighborhood method)算法对RFID数据处理的性能影响因素,包括窗口大小以及SNM原始数据的重复数量。实验证明,使用SNM处理RFID读取到的数据的关键因素是重复数据所占比例和处理窗口的大小。实验也验证了使用随机窗口大小对优化处理性能没有影响。  相似文献   

7.
相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。  相似文献   

8.
在建立数据仓库的过程中,需要从多个数据源导入数据。这些数据存在大量相似重复记录,严重影响了数据利用率和决策质量。因此,相似重复记录的检测已经成为数据仓库等领域的热点研究问题,而重复属性的识别是完成相似重复记录检测的关键。提出一种高效的基于Web的重复属性自动识别算法,该算法使用搜索引擎返回的摘要和URL信息计算属性相似度,并使用查询探针提高查询准确度。实验结果表明该算法有较高的查全率。  相似文献   

9.
孙德才  王晓霞 《计算机科学》2017,44(5):20-25, 32
如何快速发现数据集中重复或相似的记录是大数据处理技术中的一个基本问题。相似连接是一种有效的相似数据查找方法,且基于MapReduce的相似连接算法因对大数据集的处理能力强而得到广泛关注。通过分析当前相似连接算法进行自连接时存在的自连接冗余、读取原字符串复杂等问题,在Massjoin算法的基础上提出了一种改进的基于MapReduce的自连接算法。改进算法在过滤阶段增加了消除自身冗余的过滤条件,在验证阶段又采用了生成正反候选对和组合id等去冗余技术,并且读取原始字符串内容时只需读取数据集一次。实验数据显示,改进算法无论在过滤阶段还是在验证阶段都减少了算法的CPU时耗,结果表明所提改进策略是有效的。  相似文献   

10.
重复数据检测技术能够大幅降低数据中心的存储量,节省网络带宽,减少建设和运维成本。为了克服基于内容分块(CDC)方法容易出现超长块的缺点,文章提出了基于极值点分块(EDC)的重复数据检测算法。EDC算法先计算出所有右边界在数据块上下限范围内的滑动窗口中数据的指纹,找出最后一个指纹极值,所对应的滑动窗口结束位置作为数据块的分界点,再计算该数据块的哈希值并判断是否重复块。实验结果表明,EDC算法的重复数据检测率、磁盘利用率分别是CDC算法的1.48倍和1.12倍,改进效果显著。  相似文献   

11.
多数据流上的联机方差分析是一个有意义的研究问题。针对以元组为单位流入的具有相同属性集的多支单数据流组成的多数据流,提出了分别对每支单数据流进行蓄水池抽样,构造一一对应于各单数据流的若干个多快照窗口,即两者之间是双射关系,可以将多快照窗口串行置于主存中,将元组包含的属性与多快照窗口中的各个快照窗口一一对应,且使得同一快照窗口中的各基本窗口与取自其对应的单数据流的属性值样本一一对应,然后对这些相互独立的样本进行方差分析。按顺序串行处理各个多快照窗口中的数据,就可以用串行化的方法来实现并行的多数据流上的联机方差分析。理论分析与实验表明,该方法是合理的和有效的。  相似文献   

12.
记录匹配算法在异构数据的集成和数据开采等领域应用广泛,其主要任务是找出来自不同数据源中代表同一对象实体的记录,这些记录具备相似的属性和属性值。为避免组合爆炸问题,现有的记录匹配算法不再对数据库中的记录数两两匹配,而是结合排序策略和静态聚类匹配方法实现,但这种静态方法不适应数据的动态变化。因此,本文提出基于聚类汇总的记录匹配算法,该算法可以解决静态方法导致的匹配记录丢失问题,同时能够减少计算量,提高匹配记录搜索效率。  相似文献   

13.
基于遗传神经网络的相似重复记录检测方法   总被引:1,自引:0,他引:1  
为了有效解决数据清洗领域中相似重复记录的检测问题,提出了一种基于遗传神经网络的相似重复记录检测方法.该方法计算两条记录对应字段间的相似度,构建基于神经网络的检测模型,利用遗传算法对网络模型的权值进行优化,使用遗传神经网络组合多个字段上的相似度来检测相似重复记录.在不同领域数据集上的测试结果表明,该方法能够提高相似重复记录检测的准确率和检测精度.  相似文献   

14.
传统的K-modes算法采用简单的属性匹配方式计算同一属性下不同属性值的距离,并且计算样本距离时令所有属性权重相等。在此基础上,综合考虑有序型分类数据中属性值的顺序关系、无序型分类数据中不同属性值之间的相似性以及各属性之间的关系等,提出一种更加适用于混合型分类数据的改进聚类算法,该算法对无序型分类数据和有序型分类数据采用不同的距离度量,并且用平均熵赋予相应的权重。实验结果表明,改进算法在人工数据集和真实数据集上均有比K-modes算法及其改进算法更好的聚类效果。  相似文献   

15.
一种改进的相似重复记录检测方法   总被引:5,自引:1,他引:4  
针对当前相似重复记录检测方法中存在的问题.提出一种改进方法.该方法根据关系表的决定属性值划分记录集,并在每个决定属性值类中检测相似重复记录.在决定属性值聚类时,提出了动态优先队列聚类算法和合并逆序算法.尽可能使相似重复的属性值聚为同一类;在记录聚类时提出了类调整算法,以提高类的代表记录的代表性.通过大量的实验分析,验证了该方法的有效性.  相似文献   

16.
动态数据记录存储结构的设计   总被引:1,自引:0,他引:1       下载免费PDF全文
在新兴的数据库应用领域中,出现了许多不确定,不完全的动态数据记录,这就要求数据库管理系统能够存储长度可变或格式可变的数据记录,有的场合需求存储记录属性内嵌复杂对象的数据信息。本文首先对传统的记录存储结构进行分析,进而设计出适宜于存储不确定、不完全信息的存储数据结构。  相似文献   

17.
面向属性的量化归纳   总被引:6,自引:0,他引:6  
数据简化是数据库中知识发现的一个重要研究方向。面向属性的归纳(AOG)可以用于数据简化。首先从数据简化的角度分析讨论了AOG及其不足;AOG的单一属性阈值控制是布尔型控制,在有例外存在的情况下,可能造成数据过度简化,失去数据简化的意义。其次在AOG的基础上提出了面向属性的量化归纳(QAOG)以弥补AOG的不足;引入记录阈值的概念,用属性阈值和记录阈值同时进行控制,使控制从布尔型变成数量型,对没有例外存在的情况产生与AOG相同的效果,而对有例外存在的情况产生比AOG更好的效果,还给出了一个有效的QAOG算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号