首页 | 本学科首页   官方微博 | 高级检索  
     

一种结合词项语义信息和TF-IDF方法的文本相似度量方法
引用本文:黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864.
作者姓名:黄承慧  印鉴  侯昉
作者单位:1. 中山大学信息科学与技术学院,广州,510006;广东金融学院计算机科学与技术系,广州,510520
2. 中山大学信息科学与技术学院,广州,510006
3. 广东金融学院计算机科学与技术系,广州,510520
基金项目:国家自然科学基金,国家科技重大专项基金,广东省科技计划项目
摘    要:传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分...

关 键 词:文本聚类  词项语义相似度  文本相似度  自然语言处理

A Text Similarity Measurement Combining Word Semantic Information with TF-IDF Method
HUANG Cheng-Hui,YIN Jian,HOU Fang.A Text Similarity Measurement Combining Word Semantic Information with TF-IDF Method[J].Chinese Journal of Computers,2011,34(5):856-864.
Authors:HUANG Cheng-Hui  YIN Jian  HOU Fang
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号