首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于标签传播的数据分块算法
作者单位:;1.中国国防科技信息中心
摘    要:数据分块有助于降低大规模数据中实体分辨的计算复杂度,但现有算法存在效能和效率难以平衡的问题。为此,在标签传播的基础上设计数据分块算法,以实现两者的平衡。根据记录间相同词项的数量估计记录相似度,通过标签传播算法发现潜在相似重复记录,降低时间复杂度。在通用测试数据中的实验结果表明,该算法能有效提高F-Measure值,减少运行时间,实现大规模数据中的数据分块。

关 键 词:数据质量  数据清洗  实体分辨  相似重复记录  数据分块  标签传播算法

A Data Blocking Algorithm Based on Label Propagation
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号