共查询到16条相似文献,搜索用时 66 毫秒
1.
数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(Sorted-Neighborhood Method, SNM)时间效率和准确率均不高。针对SNM算法的缺陷,提出了一种基于长度过滤和动态容错的SNM改进算法。根据两条记录的长度比例和属性缺失情况,首先排除一部分不可能构成相似重复记录的数据,减少比较次数,提高检测效率;进一步提出了动态容错法,校准字段相似度评判结果,解决了因属性缺失而误判的问题,提高了准确率。针对实际数据集的实验分析表明,在相同的运算环境下,优化算法在准确率和时间效率上有明显优势。 相似文献
2.
数据仓库中的问题数据对数据质量有较大的影响,为了查找和去除这些问题数据,首要的工作是处理相似重复数据,目前针对重复数据清除应用最多的算法是基本邻近排序算法(SNM)。通过分析SNM算法的缺陷,提出了一种改进的SNM算法——ISNM。采用属性区分法计算属性权值,解决了人为主观赋予权值导致的问题;使用字段过滤算法计算2条记录的相似度,减少了窗口内记录属性的比对次数,加快了算法的检测速度;使用可变窗口代替固定大小的窗口,防止记录漏配并减少无用的记录比对。实验结果表明,改进后的ISNM算法在查全率、查准率和运行时间开销上有明显的优势。 相似文献
3.
4.
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升. 相似文献
5.
基于伸缩窗口和等级调整的SNM改进方法 总被引:1,自引:0,他引:1
对基本邻近排序算法(basic sorted-neighborhood method, SNM)进行分析, 指出其不足, 提出了SNM算法的一种改进方法。采用变步长伸缩窗口, 动态改变检测窗口大小, 避免漏配问题, 并减少不必要的比较。采用动态调整等级法, 根据记录相似度调整字段等级, 并通过等级法将字段等级转换为权重, 解决了人为赋予固定权重主观性强、不准确的问题。通过对实际系统中的数据进行测试, 验证了方法的有效性和优越性。同时, 这两种方法适用于大多数基于排序—合并的相似重复记录检测方法, 提高了相应方法的效率和准确度。 相似文献
6.
对基于MPN数据清洗算法的改进 总被引:2,自引:0,他引:2
相似重复记录的清除是数据清洗领域中的一个很重要的方面,它的目的是清除冗余的数据.介绍了该问题的流行算法-多趟近邻排序算法MPN(Multi-Pass Sorted Neighborhood),该算法能较好地对相似重复记录进行清除,但也有其不足:一是在识别中窗口大小固定,窗口的大小选取对结果影响很大.二是采用传递闭包,容易引起误识别.提出了基于MPN算法的一种改进算法,试验结果证明改进算法在记忆率和准确率上优于MPN算法. 相似文献
7.
8.
9.
基于动态权值的关联数据语义相似度算法研究 总被引:1,自引:0,他引:1
语义相似度计算对关联数据的信息检索有重要作用,直接影响数据的语义挖掘效果。实例的属性信息是关联数据语义相似度计算的一个重要因素。针对传统的关联数据语义相似度算法未考虑属性的重要性和取值类型导致计算精度较低的问题,提出基于动态权值的关联数据语义相似度计算方法,即根据待匹配的数据集中属性不同取值的数量、属性值的分布以及属性的有效性3个因素动态计算属性的权值,然后依据属性取值类型选用匹配相似度算法,最后结合属性的动态权值对概念进行实例的相似度计算。实验表明,基于动态权值的相似度计算方法与传统方法相比,实例相似度的计算精度得到了一定的提高。 相似文献
10.
11.
基于独立分量分析的自适应在线算法 总被引:1,自引:1,他引:1
独立分量分析(ICA)是近几年兴起的一种高效的信号处理方法,学习步长的优化问题是自适应ICA重要的一方面,基于变步长思想,定义了一种描述信号分离状态的相似性测度,来衡量输出分量之间的相似性程度,并由此提出一种改进的自适应在线算法。根据相似性程度所反映的信号分离状态自适应调节步长,并建立学习步长和相似性测度变化量的非线性关系,克服了传统算法在信道矩阵变化时对步长自适应调整的不足。性能指标分析和仿真实验证明了算法的收敛性和稳态性能。 相似文献
12.
基于遗传神经网络的相似重复记录检测方法 总被引:1,自引:0,他引:1
为了有效解决数据清洗领域中相似重复记录的检测问题,提出了一种基于遗传神经网络的相似重复记录检测方法.该方法计算两条记录对应字段间的相似度,构建基于神经网络的检测模型,利用遗传算法对网络模型的权值进行优化,使用遗传神经网络组合多个字段上的相似度来检测相似重复记录.在不同领域数据集上的测试结果表明,该方法能够提高相似重复记录检测的准确率和检测精度. 相似文献
13.
14.
本文提出一种基于遗传神经网络的相似重复记录检测方法,充分利用了神经网络的非线性映射和遗传算法的全局优化特性,将基于学习的思想和进化的思想有效结合并应用到重复记录检测中,避开了传统方法计算属性权重的问题,并对遗传神经网络进行改进。实验结果表明本文方法能够有效地解决大数据量的相似重复记录检测问题,不仅具有好的检测精度,而且具有很好的时间效率。 相似文献
15.
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数 据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务。 相似文献
16.
数据清理是构建数据仓库中的一个重要研究领域。检测相似重复记录是数据清洗中一项非常重要的任务。提出了一种聚类检测相似重复记录的新方法,该方法是基于N-gram将关系表中的记录映射到高维空间中,并且通过可调密度的改进型DBSCAN算法IDS来聚类检测相似重复记录。并用实验证明了这种方法的有效性。 相似文献