首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
为了提高数据库重复记录检测效果,提出一种改进量子粒子群优化算法(IQPSO)优化BP神经网络的数据库相似重复记录检测模型(IQPSO-BPNN)。首先计算记录字段间的相似度,组成特征向量;然后采用IQPSO算法优化BP神经网络进行学习,建立最优相似重复记录检测模型,最后通过仿真实验对IPSO-BPNN的性能进行测试。实验结果表明,IQPSO-BPNN大幅度减少了数据库重复记录检测时间,提高了数据库重复记录检测精度。  相似文献   

2.
一种改进的相似重复记录检测方法   总被引:5,自引:1,他引:4  
针对当前相似重复记录检测方法中存在的问题.提出一种改进方法.该方法根据关系表的决定属性值划分记录集,并在每个决定属性值类中检测相似重复记录.在决定属性值聚类时,提出了动态优先队列聚类算法和合并逆序算法.尽可能使相似重复的属性值聚为同一类;在记录聚类时提出了类调整算法,以提高类的代表记录的代表性.通过大量的实验分析,验证了该方法的有效性.  相似文献   

3.
提出一种利用汉字机内编码特点的相似重复记录相似度计算算法,并对Apriori算法进行了改进。利用改进后的Apriori算法获取数据库记录的频繁集,消除进行比较记录的共有项,有效提高相异字符的计算权重,提高相似度计算的准确性。在车辆检测数据库中对该算法进行了实验,取得了较好的实验结果,证明该算法具有较好的实用价值。  相似文献   

4.
一种检测汉语相似重复记录的有效方法   总被引:7,自引:0,他引:7  
程国达  苏杭丽 《计算机应用》2005,25(6):1362-1365
消除重复记录可以提高数据质量。提出了按字段值种类数选择排序字段的方法。在相似重复记录的检测中,用第1个排序字段建立存储相似重复记录的二维链表,然后再用第2、第3个排序字段对二维链表中的记录进行排序-比较,以提高检测效果。为了正确地匹配汉字串,研究了由于缩写所造成的不匹配和读音、字型相似造成的输入错误。通过查找“相似汉字表”解决部分输入错误的问题,计算相似度函数判断被比较的记录是否是重复记录。实验表明,提出的方法能有效的检测汉语相似重复记录。  相似文献   

5.
基于QPSO-LSSVM的数据库相似重复记录检测算法   总被引:1,自引:0,他引:1  
针对大规模数据库的相似重复记录的检测问题,提出了一种量子群优化算法(QPSO)与最小二乘支持向量 机(LSSVM)相结合的相似重复记录检测方法(QPSC}LSSVM)。首先计算记录字段的相似度值;然后利用QPSO对 LSSVM参数进行优化,构建相似重复记录检测模型;最后通过具体数据集进行仿真测试实验。仿真结果表明,QPSCL LSSVM不仅提高了重复记录检测准确率,而且提高了检测效率,是一种有效的相似重复记录检测算法。  相似文献   

6.
基于遗传神经网络的相似重复记录检测方法   总被引:1,自引:0,他引:1  
为了有效解决数据清洗领域中相似重复记录的检测问题,提出了一种基于遗传神经网络的相似重复记录检测方法.该方法计算两条记录对应字段间的相似度,构建基于神经网络的检测模型,利用遗传算法对网络模型的权值进行优化,使用遗传神经网络组合多个字段上的相似度来检测相似重复记录.在不同领域数据集上的测试结果表明,该方法能够提高相似重复记录检测的准确率和检测精度.  相似文献   

7.
本文提出一种基于遗传神经网络的相似重复记录检测方法,充分利用了神经网络的非线性映射和遗传算法的全局优化特性,将基于学习的思想和进化的思想有效结合并应用到重复记录检测中,避开了传统方法计算属性权重的问题,并对遗传神经网络进行改进。实验结果表明本文方法能够有效地解决大数据量的相似重复记录检测问题,不仅具有好的检测精度,而且具有很好的时间效率。  相似文献   

8.
一种改进的相似重复记录检测算法   总被引:1,自引:0,他引:1  
数据仓库中相似重复记录的清洗对于提高数据质量有着重要意义,传统的判重算法有SNM算法、MPN算法及KNN算法等。针对MPN算法判重精度和时间效率不高等缺陷,提出一种改进的MPN算法。根据记录属性的重要性分别设定属性权值,将属性切分为原子,进一步计算原子的权值,通过判定属性相似度进而判定记录相似度,提高查准率和查全率。采用均分大数据集为若干数据子集,并行采用MPN算法进行判重,提高判重时间效率。理论和实验分析表明该方法提高了相似重复记录检测的准确率和时间效率。  相似文献   

9.
对基于MPN数据清洗算法的改进   总被引:2,自引:0,他引:2  
相似重复记录的清除是数据清洗领域中的一个很重要的方面,它的目的是清除冗余的数据.介绍了该问题的流行算法-多趟近邻排序算法MPN(Multi-Pass Sorted Neighborhood),该算法能较好地对相似重复记录进行清除,但也有其不足:一是在识别中窗口大小固定,窗口的大小选取对结果影响很大.二是采用传递闭包,容易引起误识别.提出了基于MPN算法的一种改进算法,试验结果证明改进算法在记忆率和准确率上优于MPN算法.  相似文献   

10.
信息集成是消除信息孤岛,实现信息共享,为企业决策提供支持的核心技术,而数据获取过程是信息集成系统的基础.在数据同步更新研究中,通过根据失配元组的间隔自适应调整窗口大小,在不牺牲效率的前提下有效提高快照差分算法的查全率.进一步,在相似重复记录检测方法的研究中,结合一种新的字符串距离度量算法,并利用二次聚类,提出一种高效的基于条件概率分布的相似重复记录检测方法.最后通过实验对比测试,对快照差分算法以及相似重复记录检测算法的性能和效率进行分析,理论分析和实验结果均证明了提出的改进算法是非常有效的.  相似文献   

11.
数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(Sorted-Neighborhood Method, SNM)时间效率和准确率均不高。针对SNM算法的缺陷,提出了一种基于长度过滤和动态容错的SNM改进算法。根据两条记录的长度比例和属性缺失情况,首先排除一部分不可能构成相似重复记录的数据,减少比较次数,提高检测效率;进一步提出了动态容错法,校准字段相似度评判结果,解决了因属性缺失而误判的问题,提高了准确率。针对实际数据集的实验分析表明,在相同的运算环境下,优化算法在准确率和时间效率上有明显优势。  相似文献   

12.
数据分析和清理中相关算法研究   总被引:4,自引:0,他引:4  
数据清理的一个主要作用是识别重复的记录.结合过滤算法和启发式剪枝算法提出了启发式剪枝改进算法.然后,针对重复记录的特点提出了长度约束条件,能有效地提高比较字段不等长时的执行速度.数据库中经常会出现各种形式不同的缩写,而启发式剪枝算法等无法识别缩写情况下的重复记录,本文因此提出了基于动态规划的缩写发现算法,该算法既可以用于缩写发现也可用于缩写存在时的重复记录识别.另外,重复记录的甄别目前必须人工处理,传统方式下用户不得不逐条浏览和分析,工作时间冗长而且乏味,容易引入新的数据质量隐患,作者提出了聚类清除方案和聚类闭包算法,它将重复的记录聚类显示,用户一次可以处理完一个重复聚类,在有效提高速度的同时方便了用户.  相似文献   

13.
本文讨论了在数据集成过程中遇到的数据合并问题,主要包括重复记录判断(对象识别技术)和重复记录的冲突处理(冲突解决机制)等,提出了比较实用、有效的方法,并通过实验对多表合并的两种算法进行了比较,指出了需要进一步改进的方向。  相似文献   

14.
一种提高相似重复记录检测精度的方法   总被引:2,自引:0,他引:2  
如何消除数据源中的相似重复记录是数据清理研究中的一个重要问题。为了提高相似重复记录的检测精度,在相似重复记录检测算法的基础上,采用等级法为记录各字段指定合适的权重,从而提高了相似重复记录的检测精度。最后,以一个实例验证了该方法的效果。  相似文献   

15.
位置编码在数据仓库ETL中的应用   总被引:6,自引:0,他引:6       下载免费PDF全文
为了保证数据仓库中数据的质量,在数据挖掘前必须进行数据清洗。ETL是构建数据仓库的重要环节,数据清洗就包含在其中。而检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的关键问题之一。该文将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法,并给出了不同级别匹配阈值的动态确定方法。通过实验表明该算法具有较好的检测效果。  相似文献   

16.
基于数据分组匹配的相似重复记录检测   总被引:1,自引:0,他引:1       下载免费PDF全文
周丽娟  肖满生 《计算机工程》2010,36(12):104-106
针对数据集成中相似重复记录的识别问题,提出一种数据特征属性优选分组的算法。通过计算特征属性的方差来确定某维属性的权值,基于数据分组思想选择权值大的属性,将数据集分割成不相交的小数据集,并在各小数据集中用模糊匹配算法进行相似重复记录的识别。理论分析和实验结果表明,该方法识别效率和检测精度较高。  相似文献   

17.
基于双目相机的图像拼接   总被引:1,自引:1,他引:0       下载免费PDF全文
吴锦杰  刘肖琳 《计算机工程》2010,36(12):209-212
提出一种基于双目相机的图像拼接方法,对安放在移动机器人上不同位置的2个相机在同一时刻所拍摄到的图像进行拼接,引入自适应的非极大值抑制技术,只在图像的重叠区域进行Harris角点检测,并结合小波变换和对极几何,对图像进行快速特征匹配。在图像融合中,构造一种非线性的过渡函数,使图像重叠区域之间的过渡更平滑。实验结果表明,与传统方法相比,该方法的效率更高。  相似文献   

18.
基于内码序值聚类的相似重复记录检测方法*   总被引:4,自引:2,他引:2  
检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;然后,通过等级法计算各字段的权值,并将其应用在相似重复记录的检测算法中;最后,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法进行多次检测。通过实验表明,该方法具有较好的检测精度和时间效率,能很好地应用到中英文字符集,通用性很强,  相似文献   

19.
在建立数据仓库的过程中,需要从多个数据源导入数据。这些数据存在大量相似重复记录,严重影响了数据利用率和决策质量。因此,相似重复记录的检测已经成为数据仓库等领域的热点研究问题,而重复属性的识别是完成相似重复记录检测的关键。提出一种高效的基于Web的重复属性自动识别算法,该算法使用搜索引擎返回的摘要和URL信息计算属性相似度,并使用查询探针提高查询准确度。实验结果表明该算法有较高的查全率。  相似文献   

20.
数据仓库ETL中相似重复记录的检测方法及应用   总被引:4,自引:0,他引:4  
检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的主要问题之一。将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法PCM(位置编码方法)。该算法不仅可以应用到西文字符集中,而且也成功的应用到了中文字符集中,实例表明该算法具有很好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号