一种基于同级字段的相似重复记录检测方法 |
| |
引用本文: | 殷秀叶.一种基于同级字段的相似重复记录检测方法[J].软件,2014(6):12-14. |
| |
作者姓名: | 殷秀叶 |
| |
作者单位: | 周口师范学院计算机科学与技术学院 |
| |
基金项目: | 国家自然科学基金青年项目“云计算环境下融入安全的资源分配优化模型及其可信智能算法研究”(61103143) |
| |
摘 要: | 已有的相似重复记录检测方法侧重于研究检测的精度问题,在大数据环境下,如何缩短检测的时间非常重要。提出了一种基于同级字段的相似重复记录检测方法,首先将数据集中各字段的权重划分为主观权重和客观权重,根据权重区别不同字段的重要性,然后根据数据集中部分字段取值一一对应的特点,定义了同级字段,并利用同级字段的思想,减少了数据集中需要计算相似度的字段个数,缩短了相似重复记录检测的时间。
|
关 键 词: | 记录检测 同级字段 权重 大数据 |
本文献已被 维普 等数据库收录! |
|