首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 218 毫秒
1.
针对多数据源集成中存在的相似重复记录的问题,提出了一种基于用户兴趣度分组的模糊匹配识别方法。首先通过用户兴趣度方法来计算属性的权值,然后按照数据分组思想,选择权值大的属性将数据集分割成不相交的小数据集,最后在各小数据集中用模糊匹配算法进行相似重复记录的识别,为了提高识别效率,可选择余下权值大的属性进行多次分组和识别。理论和实践表明,该方法有较高的识别效率,能有效解决数据集成中相似重复记录的识别问题。  相似文献   

2.
基于数据分组匹配的相似重复记录检测   总被引:1,自引:0,他引:1       下载免费PDF全文
周丽娟  肖满生 《计算机工程》2010,36(12):104-106
针对数据集成中相似重复记录的识别问题,提出一种数据特征属性优选分组的算法。通过计算特征属性的方差来确定某维属性的权值,基于数据分组思想选择权值大的属性,将数据集分割成不相交的小数据集,并在各小数据集中用模糊匹配算法进行相似重复记录的识别。理论分析和实验结果表明,该方法识别效率和检测精度较高。  相似文献   

3.
目前已有的重复记录检测方法大多数基于"排序&合并"的思想,其检测精度不高、执行检测的代价过大.针对这些问题,提出了一种分组模糊聚类的特征优选方法.该方法首先进行分组记录的属性处理,以有效降低记录属性的维数,并获得分组中的代表性记录,然后采用一种相似度比较计算方法进行组内相似重复记录的检测.理论分析和实验结果表明,该方法有较高的识别精度和检测效率,能较好地解决大数据集中相似重复记录的识别问题.  相似文献   

4.
大数据集相似重复记录检测和识别中,数据源组成复杂、表征数据记录的特征属性过多,因而检测精度不高、执行检测的代价过大.针对这些问题,提出了一种分组模糊聚类的特征优选方法.首先进行分组记录的属性处理,以有效降低记录属性的维数,并获得分组中的代表性记录,然后采用一种相似度比较计算方法进行组内相似重复记录的检测.理论分析和实验...  相似文献   

5.
针对大数据环境下数据冗余量大的问题,以粗糙集理论为基础,提出了一种基于香农信息熵(Shannon entropy)融合模糊综合评判的相似重复数据检测方法,首先基于香农熵对数据集中的属性进行约简,然后采用模糊综合评判方法获取约简后各属性的重要性权值,最后依据约简属性及其权值进行相似数据的检测。理论分析与实验对比表明,该方法在结构化大数据集的相似数据检测中,有较高的检测精度与效率。  相似文献   

6.
一种改进的相似重复记录检测算法   总被引:1,自引:0,他引:1  
数据仓库中相似重复记录的清洗对于提高数据质量有着重要意义,传统的判重算法有SNM算法、MPN算法及KNN算法等。针对MPN算法判重精度和时间效率不高等缺陷,提出一种改进的MPN算法。根据记录属性的重要性分别设定属性权值,将属性切分为原子,进一步计算原子的权值,通过判定属性相似度进而判定记录相似度,提高查准率和查全率。采用均分大数据集为若干数据子集,并行采用MPN算法进行判重,提高判重时间效率。理论和实验分析表明该方法提高了相似重复记录检测的准确率和时间效率。  相似文献   

7.
张平  党选举  陈皓  杨文雷 《传感器与微系统》2011,30(11):135-137,141
针对目前相似重复记录检测方法不能有效处理大数据量的问题,提出一种基于熵的特征优选分组聚类的算法.该方法通过构造一个基于对象间相似度的熵度量,对原始数据集中各属性进行重要性评估,筛选出关键属性集,并依据关键属性将数据划分为不相交的小数据集,在各小数据集中用DBSCAN聚类算法进行相似重复记录的检测.理论分析和实验结果表明...  相似文献   

8.
模糊粗糙集融合了模糊集和粗糙集的思想,是一种新的处理模糊和不确定性知识的软计算工具。针对属性为模糊值的信息系统,提出了一种基于熵的模糊粗糙集知识获取方法:首先通过模糊相似度量计算出各属性下对象的模糊相似值,再根据模糊相似关系构造模糊等价关系,然后根据模糊等价关系建立属性集的信息熵表示,继而使用基于信息熵的决策表属性约简算法获取规则。最后,通过一个实例,分析说明了这种算法的合理有效性。  相似文献   

9.
周典瑞  周莲英 《计算机应用》2013,33(8):2208-2211
针对海量数据下相似重复记录检测算法的低查准率和低效率问题,采用综合加权法和基于字符串长度过滤法对数据集进行相似重复检测。综合加权法通过结合用户经验和数理统计法计算各属性的权重。基于字符串长度过滤法在相似检测过程中利用字符串间的长度差异提前结束编辑距离算法的计算,减少待匹配的记录数。实验结果表明,通过综合加权法计算的权重向量更加全面、准确反映出各属性的重要性,基于字符串的长度过滤法减少了记录间的比对时间,能够有效地解决海量数据的相似重复记录检测问题。  相似文献   

10.
基于内码序值聚类的相似重复记录检测方法*   总被引:4,自引:2,他引:2  
检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;然后,通过等级法计算各字段的权值,并将其应用在相似重复记录的检测算法中;最后,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法进行多次检测。通过实验表明,该方法具有较好的检测精度和时间效率,能很好地应用到中英文字符集,通用性很强,  相似文献   

11.
本文提出一种基于遗传神经网络的相似重复记录检测方法,充分利用了神经网络的非线性映射和遗传算法的全局优化特性,将基于学习的思想和进化的思想有效结合并应用到重复记录检测中,避开了传统方法计算属性权重的问题,并对遗传神经网络进行改进。实验结果表明本文方法能够有效地解决大数据量的相似重复记录检测问题,不仅具有好的检测精度,而且具有很好的时间效率。  相似文献   

12.
异构数据库集成中产生了相似重复记录,但数量是有限的,采用传统的SNM算法进行检测,需要在窗口内对所有记录进行比对,效率不高。针对这一缺陷,提出一种基于长度过滤和有效权值的SNM改进算法,在窗口内根据两条记录的长度比例首先将不可能构成相似重复记录的数据排除在外,减少了记录比较的次数,提高了检测效率;进一步通过设置属性有效性因子和权重比例计算有效权值,利用有效权值进行检测,提高了查全率和查准率。实验证明改进算法在各种性能上均优于SNM算法。  相似文献   

13.
基于双目相机的图像拼接   总被引:1,自引:1,他引:0       下载免费PDF全文
吴锦杰  刘肖琳 《计算机工程》2010,36(12):209-212
提出一种基于双目相机的图像拼接方法,对安放在移动机器人上不同位置的2个相机在同一时刻所拍摄到的图像进行拼接,引入自适应的非极大值抑制技术,只在图像的重叠区域进行Harris角点检测,并结合小波变换和对极几何,对图像进行快速特征匹配。在图像融合中,构造一种非线性的过渡函数,使图像重叠区域之间的过渡更平滑。实验结果表明,与传统方法相比,该方法的效率更高。  相似文献   

14.
In this paper, we develop a new method for multiple attributes group decision-making problems under uncertain environment, in which the information about attribute weights is incompletely known or completely unknown, and each maker’s decision information is expressed by an interval-valued fuzzy soft set. Moreover, this paper takes account of the decision makers’ attitude toward risk. In order to get the weight vector of the attributes, we construct the score matrix of the final fuzzy soft set. From the score matrix and the given attribute weights information, we establish an optimization model to determine the weights of attributes. For the special situations where the information about attribute weights is completely unknown, we establish another optimization model. By solving this model, we get a simple and exact formula, which can be used to determine the attribute weights. According to these models, a method based on interval-valued fuzzy soft set, which considers the decision makers’ risk attitude under uncertain environment, is given to rank the alternatives. Finally, a numerical example is used to illustrate the applicability of the proposed approach.  相似文献   

15.
刘雪琼  武刚  邓厚平 《计算机应用》2013,33(9):2493-2496
针对现有数据去重方法中存在的时间效率和检测精度低的问题,结合Web信息整合的特点,提出一种逐级聚类的数据去重方法(SCDE)。首先通过关键属性分割和Canopy聚类将数据划分成小记录集,然后精确检测相似重复记录,并提出基于动态权重的模糊实体匹配策略,采用动态权重赋值,降低属性缺失对记录相似度计算带来的影响,并对名称的特殊性进行处理,提高匹配准确率。实验结果显示:该方法在时间效率和检测精度上均优于传统算法,其中准确率提高12.6%。该方法已应用于林业黄页系统中,取得了较好的应用效果。  相似文献   

16.
Gui-Wu Wei 《Knowledge》2010,23(3):243-247
The aim of this paper is to investigate the multiple attribute decision-making problems with intuitionistic fuzzy information, in which the information about attribute weights is incompletely known, and the attribute values take the form of intuitionistic fuzzy numbers. In order to get the weight vector of the attribute, we establish an optimization model based on the basic ideal of traditional grey relational analysis (GRA) method, by which the attribute weights can be determined. Then, based on the traditional GRA method, calculation steps for solving intuitionistic fuzzy multiple attribute decision-making problems with incompletely known weight information are given. The degree of grey relation between every alternative and positive-ideal solution and negative-ideal solution are calculated. Then, a relative relational degree is defined to determine the ranking order of all alternatives by calculating the degree of grey relation to both the positive-ideal solution (PIS) and negative-ideal solution (NIS) simultaneously. Finally, an illustrative example is given to verify the developed approach and to demonstrate its practicality and effectiveness.  相似文献   

17.
一种改进的相似重复记录检测方法   总被引:5,自引:1,他引:4  
针对当前相似重复记录检测方法中存在的问题.提出一种改进方法.该方法根据关系表的决定属性值划分记录集,并在每个决定属性值类中检测相似重复记录.在决定属性值聚类时,提出了动态优先队列聚类算法和合并逆序算法.尽可能使相似重复的属性值聚为同一类;在记录聚类时提出了类调整算法,以提高类的代表记录的代表性.通过大量的实验分析,验证了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号