首页 | 本学科首页   官方微博 | 高级检索  
     

S—SimRank:结合内容和链接信息的文档相似度计算方法
作者姓名:蔡元哲,  李佩,  刘红岩,  何军,  杜小勇
作者单位:[1]中国人民大学教育部数据工程和知识工程重点实验室,北京100872; [2]中国人民大学信息学院,北京100872; [3]清华大学管理科学与工程系,北京100084
基金项目:The National Natural Science Foundation of China under Grant No.70871068,70621061,70890083,60873017,60573092 ( 国家自然科学基金) ; The preliminary version of this paper was first appeared in Proceedings of 4th International Conference on Advanced Data Mining and Applications, Chengdu, China, October, 2008.
摘    要:文档的内容分析和连接分析是计算文档相似度的两种方法。连接分析能够发现文档之间的隐含关系,但是,由于文档之间的噪声的存在,这种方法很难得到精确的结果。为了解决这个问题,提出了一个新的算法——S-SimRank(Star—SimRank),有效地将文档的内容信息和连接信息结合在一起从而提高了文档相似度计算的准确性。S-Simrank算法在ACM数据集上无论是准确性和效率都比其他算法有了很大地提高。最后,给出了S—SimRank的收敛性的数学证明。

关 键 词:连接分析  相似度计算  文本分析
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号