首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 31 毫秒
1.
基于数据分组匹配的相似重复记录检测   总被引:1,自引:0,他引:1  
周丽娟  肖满生 《计算机工程》2010,36(12):104-106
针对数据集成中相似重复记录的识别问题,提出一种数据特征属性优选分组的算法。通过计算特征属性的方差来确定某维属性的权值,基于数据分组思想选择权值大的属性,将数据集分割成不相交的小数据集,并在各小数据集中用模糊匹配算法进行相似重复记录的识别。理论分析和实验结果表明,该方法识别效率和检测精度较高。  相似文献   

2.
一种改进的相似重复记录检测方法   总被引:4,自引:1,他引:4  
针对当前相似重复记录检测方法中存在的问题.提出一种改进方法.该方法根据关系表的决定属性值划分记录集,并在每个决定属性值类中检测相似重复记录.在决定属性值聚类时,提出了动态优先队列聚类算法和合并逆序算法.尽可能使相似重复的属性值聚为同一类;在记录聚类时提出了类调整算法,以提高类的代表记录的代表性.通过大量的实验分析,验证了该方法的有效性.  相似文献   

3.
一种提高相似重复记录检测精度的方法   总被引:2,自引:0,他引:2  
如何消除数据源中的相似重复记录是数据清理研究中的一个重要问题。为了提高相似重复记录的检测精度,在相似重复记录检测算法的基础上,采用等级法为记录各字段指定合适的权重,从而提高了相似重复记录的检测精度。最后,以一个实例验证了该方法的效果。  相似文献   

4.
一种高效的检测相似重复记录的方法   总被引:33,自引:0,他引:33  
如何消除数据库中的重复信息是数据质量研究中的一个热课题。文中提出了一种高效的基于N-Gram的检测相似重复记录的方法,主要工作有:(1)提出了一种高效的基于N-Gram的聚类算法,该算法能适应常见的拼写错误从而较好地聚类相似重复记录,复杂度仅为O(N);同时提出该算法的改进形式,使其在检测的同时能自动校正单词的插入、删除错误、提高检测精度。(2)采用了一种高效的应用无关的Pair-wise比较算法,该算法以单词间的编辑距离为基础,通过计算两记录中单间的编辑距离来判断记录的相似与否。(3)给出了一种改进的优先队列算法来准确地聚类相似重复记录,该算法使用固定大小的优先队列顺序扫描已排序的记录,通过比较当前记录和队列中记录的距离来聚类相似重复记录,此外,该文构造了合适的实验环境并作了大量的算法实验,在此基础上,文中分析了大量、翔实的实验结果从而验证了算法的科学性。  相似文献   

5.
关系数据库中近似重复记录的识别   总被引:5,自引:0,他引:5  
数据清理转换是数据仓库中的一个重要研究领域,其技术难点之一是重复记录的识别。介绍了与重复记录识别相关的字符串匹配方法,详细讨论了识别重复记录的分区式优先队列算法、多趟邻近排序法以及邻近连接法,最后给出了实验结果。  相似文献   

6.
相似重复记录识别是数据清理中的一个关键问题。文章针对常用的多趟邻接排序法提出了两点改进:一是在多趟排序识别过程中直接合并有重叠的相似记录集,取消了最后计算传递闭包的环节;二是利用关键字按字典序排序的特性,在求编辑距离之前先过滤前面的公共子串,减少了相似记录比较的开销。文章最后给出了改进算法与原算法的对比试验结果。  相似文献   

7.
相似重复记录识别是数据清理中的一个关键问题.文章针对常用的多趟邻接排序法提出了两点改进一是在多趟排序识别过程中直接合并有重叠的相似记录集,取消了最后计算传递闭包的环节;二是利用关键字按字典序排序的特性,在求编辑距离之前先过滤前面的公共子串,减少了相似记录比较的开销.文章最后给出了改进算法与原算法的对比试验结果.  相似文献   

8.
基于模糊综合评判的相似重复记录识别方法   总被引:3,自引:0,他引:3  
针对在基于字符串匹配的相似重复记录识别中,属性权值确定主观性太强的问题,提出一种模糊综合评判获取属性权值的方法。采用多用户对各属性的重要性组成因素进行等级评价,通过模糊映射获得反映属性重要性的权值,并以此为基础进行相似重复记录识别。理论分析和实验表明,该方法能客观地获取各属性权值,因而在相似重复记录识别中有较高的识别精度。  相似文献   

9.
一种检测汉语相似重复记录的有效方法   总被引:7,自引:0,他引:7  
程国达  苏杭丽 《计算机应用》2005,25(6):1362-1365
消除重复记录可以提高数据质量。提出了按字段值种类数选择排序字段的方法。在相似重复记录的检测中,用第1个排序字段建立存储相似重复记录的二维链表,然后再用第2、第3个排序字段对二维链表中的记录进行排序-比较,以提高检测效果。为了正确地匹配汉字串,研究了由于缩写所造成的不匹配和读音、字型相似造成的输入错误。通过查找“相似汉字表”解决部分输入错误的问题,计算相似度函数判断被比较的记录是否是重复记录。实验表明,提出的方法能有效的检测汉语相似重复记录。  相似文献   

10.
基于遗传神经网络的相似重复记录检测方法   总被引:1,自引:0,他引:1  
为了有效解决数据清洗领域中相似重复记录的检测问题,提出了一种基于遗传神经网络的相似重复记录检测方法.该方法计算两条记录对应字段间的相似度,构建基于神经网络的检测模型,利用遗传算法对网络模型的权值进行优化,使用遗传神经网络组合多个字段上的相似度来检测相似重复记录.在不同领域数据集上的测试结果表明,该方法能够提高相似重复记录检测的准确率和检测精度.  相似文献   

11.
匹配树和决策树方法识别英语句子中的BaseNP   总被引:1,自引:1,他引:1  
提出了语料库和机器学习相结合的方法识别英语句子中的简单的、非递归的名词短语(BaseNP),在含有词性标注和BaseNP边界标注的训练语料中,抽取所有不同类型BaseNP短语对应的词性序列(BaseNP规则),通过规则排序和语方学知识,对其中正确率低且明显不符合语法的规则进行剔除,在识别时,采取规则匹配树的方法进行最大长度匹配,通过归纳机器学习C4.5自满引入上下文信息,由C4.5算法学习出有效(  相似文献   

12.
基于XML的CBR异构案例近似匹配模型   总被引:1,自引:0,他引:1  
针对已有XML文档间相似度比较策略仅限于结构或内容单方面匹配的局限,借助基于案例的推理CBR(Case-Based Reasoning)系统的领域知识库,设计并提出一种用于解决CBR异构案例近似匹配的模型,从结构、语义及内容三方面综合考虑XML文档间的相似度。该模型一方面解决了现有XML文档相似度匹配策略无法综合结构、语义及内容三方面信息的难题;另一方面解决了现有CBR系统仅能比较同构案例的局限。  相似文献   

13.
将立体匹配转化为求物理模型的平衡状态问题,提出了基于物理模型的立体匹配方法.为了克服局部最优问题及解对初始模型的敏感问题,采用位于真实视差表面两侧的两个物理表面模型,在迭代过程中对能量较大的表面附加驱动力,使其靠近另一表面,直到两个表面收敛到同一个解.为了进一步提高匹配的速度,采用了多分辨率算法.实验结果表明了该方法的有效性.  相似文献   

14.
在分形图像压缩中,图像被分割成序列块和主块,其中每一个序列块与其相似的主块要从主池(子图像集)中进行匹配选择。不过,这个较大的池中实际上只有一部分被利用在图像编码中。我们通过利用较强亮度变化的主块来缩减主池,从而导致了分形图像在编码时间方面的改善。  相似文献   

15.
为了提高数据库重复记录检测效果,提出一种改进量子粒子群优化算法(IQPSO)优化BP神经网络的数据库相似重复记录检测模型(IQPSO-BPNN)。首先计算记录字段间的相似度,组成特征向量;然后采用IQPSO算法优化BP神经网络进行学习,建立最优相似重复记录检测模型,最后通过仿真实验对IPSO-BPNN的性能进行测试。实验结果表明,IQPSO-BPNN大幅度减少了数据库重复记录检测时间,提高了数据库重复记录检测精度。  相似文献   

16.
产生模糊规划的传统方法,指出利用传统的模糊规则生成方法所得到的模糊规则及由模糊规则所得到的各种控制和预测结果值得怀疑。本文邮从一类数据信息中产生模糊规则的有限元方法,基于本方法所产生的模糊规则是由所研究对象的精度决定的。最后给出的模糊规则生成的实例表明了本方法的有效性和简捷性。  相似文献   

17.
一个新的变形模板匹配方法   总被引:4,自引:0,他引:4  
在基于内容的图像信息查询与模式识别等方面,变形模板匹配都是一个十分有效的方法。本文对模板匹配方法中的模板结构,能量公式,形变公式等方面进行了研究。以生物体为原型,提出了更为合理的模板结构;简化了模板的内能表达式及能量梯度的求法;提出了平面形状拟相似的概念,使模板形变具有较好的心理学上的基础。最后给出了用变形模板匹配实现基于形状的图象信息查询的例子。  相似文献   

18.
一种模糊规则动态调整BP算法中参数的方法   总被引:8,自引:0,他引:8  
文中首先对标准的BP算法进行了分析。然后在此基础上提出了通过模糊规则推理动态调整学习率和动量因子的改进的方法,并通过模糊推理系统实现了BP算法的模糊控制。最后通过实例将该算法与标准BP算法和Vogl改进的算法进行了比较,实验结果表明通过模糊推理来改善神经网络的BP算法性能是一种很有前途的方法。  相似文献   

19.
介绍一种基于模糊聚类的模糊辨识方法。首先利用含有聚类准则函数的模糊聚类方法来确定模糊规则数和模型前提参数,然后利用最小二乘法来辨识模型的结论参数,最后采用梯度下降法来调整模型的参数。该方法应用于Box-Jenkins数据仿真实例,仿真结果表明该方法简单有效。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号