首页 | 本学科首页   官方微博 | 高级检索  
     

InfoSigs:一种面向Web对象的细粒度聚类算法
引用本文:盛振华,吴羽,江锦华,寿黎但,陈刚. InfoSigs:一种面向Web对象的细粒度聚类算法[J]. 计算机研究与发展, 2010, 47(5)
作者姓名:盛振华  吴羽  江锦华  寿黎但  陈刚
作者单位:浙江大学计算机科学与技术学院,杭州,310027
基金项目:国家自然科学基金项目(60603044,60803003);;浙江省科技计划基金项目重大科技攻关项目(2006c11108);;浙江省重大国际合作项目(2008C14060)~~
摘    要:面向Web对象的细粒度聚类已经成为学术界研究的热点.然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,充分挖掘Web文档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对Web对象的细粒度聚类.算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录间的相似度,减少噪音对合并过程的影响.实验结果表明,InfoSigs算法比传统聚类算法—I-Match和Shingling—在F-Measure值上平均约有21.3%的提高,可以有效地运用到多领域Web对象的聚类问题.

关 键 词:Web对象  词频序TFS  信息分布集中度  相似度直方图  记录簇  

InfoSigs: A Fine-Grained Clustering Algorithm for Web Objects
Sheng Zhenhua,Wu Yu,Jiang Jinhua,Shou Lidan,Chen Gang. InfoSigs: A Fine-Grained Clustering Algorithm for Web Objects[J]. Journal of Computer Research and Development, 2010, 47(5)
Authors:Sheng Zhenhua  Wu Yu  Jiang Jinhua  Shou Lidan  Chen Gang
Affiliation:College of Computer Science and Technology;Zhejiang University;Hangzhou 310027
Abstract:Clustering of objects in Web(IR) documents has recently become a hot topic in the research community of Web information retrieval(IR) Generally,quality Web IR requires fine-grained clustering of objects in documents However,the present clustering algorithms are mostly confined to the level of sentence structure or textual topic The lack of consideration of token information for identifying more detailed-level objects often leads to coarse-grained clustering results To address this problem,the authors propos...
Keywords:Web object  token frequent sequence TFS  aggregation of information distribution  similarity histogram  cluster  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号