首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于同级字段的相似重复记录检测方法
引用本文:殷秀叶.一种基于同级字段的相似重复记录检测方法[J].软件,2014(6):12-14.
作者姓名:殷秀叶
作者单位:周口师范学院计算机科学与技术学院
基金项目:国家自然科学基金青年项目“云计算环境下融入安全的资源分配优化模型及其可信智能算法研究”(61103143)
摘    要:已有的相似重复记录检测方法侧重于研究检测的精度问题,在大数据环境下,如何缩短检测的时间非常重要。提出了一种基于同级字段的相似重复记录检测方法,首先将数据集中各字段的权重划分为主观权重和客观权重,根据权重区别不同字段的重要性,然后根据数据集中部分字段取值一一对应的特点,定义了同级字段,并利用同级字段的思想,减少了数据集中需要计算相似度的字段个数,缩短了相似重复记录检测的时间。

关 键 词:记录检测  同级字段  权重  大数据
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号