排序方式: 共有1条查询结果,搜索用时 0 毫秒
1
1.
相似重复记录检测是数据清洗领域中的一个重要方面.文中研究了在数据模式与匹配规则不变的前提下,数据集动态增加时近似重复记录的识别问题,针对基于聚类数算法精度不高、效率低下等问题提出一种改进算法.该算法运用等级法给属性赋予相应权重并约减属性,通过构造聚类树对相似记录进行聚类,增设了一个阈值以减少不必要的相似度比较次数,提高了算法的效率和准确率.最后通过实验证明了该算法的有效性,并提出了进一步的研究方向. 相似文献
1