首页 | 本学科首页   官方微博 | 高级检索  
     

基于汉明距离的文本相似度计算
引用本文:张焕炯,王国胜,钟义信.基于汉明距离的文本相似度计算[J].计算机工程与应用,2001,37(19):21-22.
作者姓名:张焕炯  王国胜  钟义信
作者单位:北京邮电大学信息工程学院
基金项目:国家自然科学基金资助项目(编号:69982001)
摘    要:传统的文本分类中相似度的计算,是根据欧氏空间中向量之间夹角的余弦值来表征的,它根据余弦值的大小来反映文本之间的相互关系。该文则首先建立文本集与码字集之间的1-1对应关系,然后借用编码理论中汉明距离的概念,由汉明距离的计算公式,得到了一种全新的文本相似度的计算方法,与传统的方法相比较,它具有简便,快速等优点。

关 键 词:文本分类  信息检索  汉明距离
文章编号:1002-8331-(2001)19-0021-02
修稿时间:2001年6月1日

Text Similarity Computing Based on Hamming Distance
Zhang Huanjiong,Wang Guosheng,Zhong Yixin.Text Similarity Computing Based on Hamming Distance[J].Computer Engineering and Applications,2001,37(19):21-22.
Authors:Zhang Huanjiong  Wang Guosheng  Zhong Yixin
Abstract:In the process of information retrieval(IR),the traditional method is to compute the similarity between the tests and the queries.There are several IR models,such as reverse document model,vector space model,and latent semantic model and so on.We base on the theory of Hamming distance,to construct the new formula to compute the similarity of the different tests and the queries,we compare this new method with the others,It has some advantages over the others.
Keywords:Tests classification  Information retrieval  Hamming distance
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号