共查询到10条相似文献,搜索用时 15 毫秒
1.
数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(Sorted-Neighborhood Method, SNM)时间效率和准确率均不高。针对SNM算法的缺陷,提出了一种基于长度过滤和动态容错的SNM改进算法。根据两条记录的长度比例和属性缺失情况,首先排除一部分不可能构成相似重复记录的数据,减少比较次数,提高检测效率;进一步提出了动态容错法,校准字段相似度评判结果,解决了因属性缺失而误判的问题,提高了准确率。针对实际数据集的实验分析表明,在相同的运算环境下,优化算法在准确率和时间效率上有明显优势。 相似文献
2.
针对现有数据去重方法中存在的时间效率和检测精度低的问题,结合Web信息整合的特点,提出一种逐级聚类的数据去重方法(SCDE)。首先通过关键属性分割和Canopy聚类将数据划分成小记录集,然后精确检测相似重复记录,并提出基于动态权重的模糊实体匹配策略,采用动态权重赋值,降低属性缺失对记录相似度计算带来的影响,并对名称的特殊性进行处理,提高匹配准确率。实验结果显示:该方法在时间效率和检测精度上均优于传统算法,其中准确率提高12.6%。该方法已应用于林业黄页系统中,取得了较好的应用效果。 相似文献
3.
相似重复记录检测是数据清洗领域中的一个重要方面.文中研究了在数据模式与匹配规则不变的前提下,数据集动态增加时近似重复记录的识别问题,针对基于聚类数算法精度不高、效率低下等问题提出一种改进算法.该算法运用等级法给属性赋予相应权重并约减属性,通过构造聚类树对相似记录进行聚类,增设了一个阈值以减少不必要的相似度比较次数,提高了算法的效率和准确率.最后通过实验证明了该算法的有效性,并提出了进一步的研究方向. 相似文献
4.
针对多数据源集成中存在的相似重复记录的问题,提出了一种基于用户兴趣度分组的模糊匹配识别方法。首先通过用户兴趣度方法来计算属性的权值,然后按照数据分组思想,选择权值大的属性将数据集分割成不相交的小数据集,最后在各小数据集中用模糊匹配算法进行相似重复记录的识别,为了提高识别效率,可选择余下权值大的属性进行多次分组和识别。理论和实践表明,该方法有较高的识别效率,能有效解决数据集成中相似重复记录的识别问题。 相似文献
5.
基于QPSO-LSSVM的数据库相似重复记录检测算法 总被引:1,自引:0,他引:1
针对大规模数据库的相似重复记录的检测问题,提出了一种量子群优化算法(QPSO)与最小二乘支持向量
机(LSSVM)相结合的相似重复记录检测方法(QPSC}LSSVM)。首先计算记录字段的相似度值;然后利用QPSO对
LSSVM参数进行优化,构建相似重复记录检测模型;最后通过具体数据集进行仿真测试实验。仿真结果表明,QPSCL
LSSVM不仅提高了重复记录检测准确率,而且提高了检测效率,是一种有效的相似重复记录检测算法。 相似文献
6.
曹小峰 《计算机工程与设计》2009,30(23)
目前已有的重复记录检测方法大多数基于"排序&合并"的思想,其检测精度不高、执行检测的代价过大.针对这些问题,提出了一种分组模糊聚类的特征优选方法.该方法首先进行分组记录的属性处理,以有效降低记录属性的维数,并获得分组中的代表性记录,然后采用一种相似度比较计算方法进行组内相似重复记录的检测.理论分析和实验结果表明,该方法有较高的识别精度和检测效率,能较好地解决大数据集中相似重复记录的识别问题. 相似文献
7.
8.
在建立数据仓库的过程中,需要从多个数据源导入数据。这些数据存在大量相似重复记录,严重影响了数据利用率和决策质量。因此,相似重复记录的检测已经成为数据仓库等领域的热点研究问题,而重复属性的识别是完成相似重复记录检测的关键。提出一种高效的基于Web的重复属性自动识别算法,该算法使用搜索引擎返回的摘要和URL信息计算属性相似度,并使用查询探针提高查询准确度。实验结果表明该算法有较高的查全率。 相似文献
9.
郭文龙 《计算机工程与应用》2014,50(19):123-127
异构数据库集成中产生了相似重复记录,但数量是有限的,采用传统的SNM算法进行检测,需要在窗口内对所有记录进行比对,效率不高。针对这一缺陷,提出一种基于长度过滤和有效权值的SNM改进算法,在窗口内根据两条记录的长度比例首先将不可能构成相似重复记录的数据排除在外,减少了记录比较的次数,提高了检测效率;进一步通过设置属性有效性因子和权重比例计算有效权值,利用有效权值进行检测,提高了查全率和查准率。实验证明改进算法在各种性能上均优于SNM算法。 相似文献