首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于HNC理论的文本相似度算法
引用本文:袁晓峰. 一种基于HNC理论的文本相似度算法[J]. 计算机时代, 2014, 0(11): 40-41,43
作者姓名:袁晓峰
作者单位:盐城师范学院信息科学与技术学院,江苏 盐城,224002
基金项目:盐城师范学院科研项目“中文文本聚类方法的研究”
摘    要:计算文本相似度常用基于向量空间计算夹角余弦的方法,该方法忽视了同一文本中词与词之间的语义相似度,因而造成了文本表示模型的高维性以及计算的高复杂性。为此,提出了一种文本相似度算法,利用HNC理论先计算特征词之间的语义相似度,进行必要的降维,进一步计算每个文本向量中的TF*IDF值,最后计算两个向量的空间夹角余弦值并将其作为两个文本之间的相似度。将实验结果与直接计算余弦值的结果比较发现,改进后的算法中VSM的维数明显比改进前小得多,改进后的算法提高了召回率和准确率。因此,改进后的算法是切实有效的。

关 键 词:HNC理论  语义相似度  VSM  文本相似度

Word relativity algorithm based on HNC
Yuan Xiaofeng. Word relativity algorithm based on HNC[J]. Computer Era, 2014, 0(11): 40-41,43
Authors:Yuan Xiaofeng
Affiliation:Yuan Xiaofeng;School of Information Science and technology, Yancheng Teachers College;
Abstract:The method to calculate text similarity based on VSM is widely used, which causes high dimension of VSM and complexity of calculation because it ignores the relationship between words in the same text. HNC theory is applied to calculate the weight of VSM and the similarity between texts. The practice shows that the dimension is smaller than before, the recall rate and precision of the algorithm have improved.
Keywords:HNC theory  semantic similarity  VSM  text similarity
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号