首页 | 本学科首页   官方微博 | 高级检索  
     

多特征融合的新闻聚类相似度计算方法
作者单位:;1.北京邮电大学网络技术研究院
摘    要:随着网络的发展,互联网已经成为了最重要的新闻媒介。网络上的新闻报道能广泛传播,对社会有着深刻的影响。因此互联网新闻事件的监督和挖掘分析,对政府,企业有着巨大的价值。在进行新闻报道分析的时候,最为重要的任务之一就是把网络上类别杂乱,来源广泛的新闻进行识别和归类。新闻归类主要是基于通用的聚类的方法,其中一项基本的技术就是新闻报道相似度计算。根据需求不同,新闻聚类类别可以是一个事件,或者是一领域。本文针对事件的新闻报道聚类,提出了一种混合特征的相似度计算方法。采用了Tf-Idf和n-gram结合的向量空间模型来得到文本相似度,再通过规则识别出新闻文本中的时间,地点等关键信息,进行关键信息匹配度计算,最后再把两个相似度结合作为最终匹配度。实验表明,混合特征的方法明显提高了事件聚类的准召率。

关 键 词:计算机应用技术  话题发现  聚类  文本相似度

A Similarity Calculation for News Clustering with Mixed
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号