首页 | 本学科首页   官方微博 | 高级检索  
     

一种融合词项关联关系和统计信息的短文本建模方法
作者单位:;1.西北师范大学计算机科学与工程学院
摘    要:传统文本表示方法通常基于词袋模型,而词袋模型是基于文本中词项之间是相互独立的假设。最近也提出一些通过词共现来获取词项之间关系的统计分析方法,却忽略了词项之间的隐含语义。为了解决传统文本表示方法词袋模型对文本语义的忽略问题,提出一种融合词项关联关系和统计信息的短文本建模方法。通过词语之间的内联及外联关系耦合得到词语关联关系,充分挖掘了显示和隐含的语义信息;同时以关联关系作为初始词语相似度,迭代计算词语之间及文本之间的相似度,改善了短文本的表示。实验证明,该方法显著地提高了短文本聚类的性能。

关 键 词:内联关系  外联关系  词语相似度  文本相似度  短文本相似度

A SHORT TEXT MODELLING METHOD FUSING CORRELATION OF LEXICAL ITEMS AND STATISTIC INFORMATION
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号