S—SimRank：结合内容和链接信息的文档相似度计算方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

S—SimRank：结合内容和链接信息的文档相似度计算方法

作者姓名：	蔡元哲, 李佩, 刘红岩, 何军, 杜小勇

作者单位：	[1]中国人民大学教育部数据工程和知识工程重点实验室,北京100872; [2]中国人民大学信息学院,北京100872; [3]清华大学管理科学与工程系,北京100084

基金项目：	The National Natural Science Foundation of China under Grant No.70871068,70621061,70890083,60873017,60573092 （国家自然科学基金） ; The preliminary version of this paper was first appeared in Proceedings of 4th International Conference on Advanced Data Mining and Applications, Chengdu, China, October, 2008.

摘要：	文档的内容分析和连接分析是计算文档相似度的两种方法。连接分析能够发现文档之间的隐含关系，但是，由于文档之间的噪声的存在，这种方法很难得到精确的结果。为了解决这个问题，提出了一个新的算法——S-SimRank（Star—SimRank），有效地将文档的内容信息和连接信息结合在一起从而提高了文档相似度计算的准确性。S-Simrank算法在ACM数据集上无论是准确性和效率都比其他算法有了很大地提高。最后，给出了S—SimRank的收敛性的数学证明。
关键词：	连接分析相似度计算文本分析
本文献已被维普等数据库收录！