首页 | 本学科首页   官方微博 | 高级检索  
     

基于词汇语义信息的文本相似度计算
作者姓名:谷重阳  徐浩煜
作者单位:上海大学,中国科学院上海高等研究院
摘    要:传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大都通过词汇串联等形式表示文本,无法体现词汇在语料库中的分布情况。 针对以上问题,本文提出了一种新的计算方法, 该方法认为基于统计的文本向量各元素之间存在相关性,且该相关性可通过词汇语义相似度表示。 因此, 本文利用词汇相似度改进了基于余弦公式的文本相似度计算方法。 实验表明该方法在 F1 值和准确度评价标准上优于其他方法。

关 键 词:文本相似度  词向量  词频-逆文档频率
收稿时间:2016-09-27
修稿时间:2018-01-02
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号