基于词汇语义信息的文本相似度计算期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于词汇语义信息的文本相似度计算

作者姓名：	谷重阳徐浩煜

作者单位：	上海大学,中国科学院上海高等研究院

摘要：	传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大都通过词汇串联等形式表示文本,无法体现词汇在语料库中的分布情况。针对以上问题,本文提出了一种新的计算方法, 该方法认为基于统计的文本向量各元素之间存在相关性,且该相关性可通过词汇语义相似度表示。因此, 本文利用词汇相似度改进了基于余弦公式的文本相似度计算方法。实验表明该方法在 F1 值和准确度评价标准上优于其他方法。
关键词：	文本相似度词向量词频-逆文档频率
收稿时间：	2016-09-27
修稿时间：	2018-01-02

	点击此处可从《计算机应用研究》浏览原始摘要信息
	点击此处可从《计算机应用研究》下载全文