首页 | 本学科首页   官方微博 | 高级检索  
     

一种融合多种编辑距离的字符串相似度计算方法*
引用本文:刁兴春,谭明超,曹建军. 一种融合多种编辑距离的字符串相似度计算方法*[J]. 计算机应用研究, 2010, 27(12): 4523-4525. DOI: 10.3969/j.issn.1001-3695.2010.12.037
作者姓名:刁兴春  谭明超  曹建军
作者单位:1. 解放军理工大学,指挥自动化学院,南京,210007;解放军总参第63研究所,南京,210007
2. 解放军理工大学,指挥自动化学院,南京,210007
3. 解放军总参第63研究所,南京,210007
基金项目:中国博士后科学基金资助项目(20090461425);江苏省博士后科研资助计划项目(0901014B)
摘    要:针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似重复记录检测的查全率的同时,也能获得较高的查准率。

关 键 词:数据清洗   相似重复记录   字符串匹配   字符串相似度   编辑距离

New method of character string similarity compute based on fusing multiple edit distances
DIAO Xing-chun,TAN Ming-chao,CAO Jian-jun. New method of character string similarity compute based on fusing multiple edit distances[J]. Application Research of Computers, 2010, 27(12): 4523-4525. DOI: 10.3969/j.issn.1001-3695.2010.12.037
Authors:DIAO Xing-chun  TAN Ming-chao  CAO Jian-jun
Abstract:The Chinese character is treated as the equivalent of western character when computing edit distance of strings composed of Chinese and western characters. Considering from Chinese input methods, this paper proposed a new way to calculate edit distance based on PinYin code and WuBi code of Chinese character. Also proposed the algorithm of fusing three edit distances to get string similarity. Experiment results show that the new method can improve the recall rate of approximately duplicate records detection, besides getting high precision rate.
Keywords:data cleaning   approximately duplicate records   string matching   string similarity   edit distance
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号