首页 | 本学科首页   官方微博 | 高级检索  
     

基于词汇语义信息的文本相似度计算
引用本文:谷重阳,徐浩煜.基于词汇语义信息的文本相似度计算[J].计算机应用研究,2018,35(2).
作者姓名:谷重阳  徐浩煜
作者单位:上海大学,中国科学院上海高等研究院
摘    要:传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大都通过词汇串联等形式表示文本,无法体现词汇在语料库中的分布情况。 针对以上问题,本文提出了一种新的计算方法, 该方法认为基于统计的文本向量各元素之间存在相关性,且该相关性可通过词汇语义相似度表示。 因此, 本文利用词汇相似度改进了基于余弦公式的文本相似度计算方法。 实验表明该方法在 F1 值和准确度评价标准上优于其他方法。

关 键 词:文本相似度  词向量  词频-逆文档频率
收稿时间:2016/9/27 0:00:00
修稿时间:2018/1/2 0:00:00

Text similarity computing based on lexical semantic information
guchongyang and xuhaoyu.Text similarity computing based on lexical semantic information[J].Application Research of Computers,2018,35(2).
Authors:guchongyang and xuhaoyu
Affiliation:Shanghai University,
Abstract:Traditional text similarity computation usually bases on word matching, which ignores the semantic information of the words, and the calculation results are limited by the repetition rate of the two texts. The distributed word vectors can effectively express semantic relations between words, but the text processing method based on word vector mostly express text by vocabulary series. In order to solve these problems, this paper proposes a new method to calculate the similarity of text. The method considers that there are correlations among the elements of the text vector. The correlations can be expressed by the semantic similarity of words. Therefore, the word similarity is used to improved cosine formula. We compared our method with other three methods on three popular datasets. The experimental results show that the proposed method outperforms other methods in F1 value and accuracy evaluation criteria.
Keywords:text similarity  word embedding  TF-IDF
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号