首页 | 本学科首页   官方微博 | 高级检索  
     

基于Bagging的XML文档集成聚类研究
引用本文:赵斌,张永胜.基于Bagging的XML文档集成聚类研究[J].计算机工程与应用,2009,45(14):138-140.
作者姓名:赵斌  张永胜
作者单位:山东师范大学,信息科学与工程学院,济南,250014
基金项目:山东省自然科学基金,山东省青年科学家科研奖励基金,山东省科技攻关计划 
摘    要:将集成学习方法应用到XML文档聚类中来改进传统聚类算法的不足。提出一种标签与路径相结合的XML文档向量模型,基于这个模型,首先对原始文档集进行多次抽样,在新文档集上进行K均值聚类,然后对得到的聚类中心集合进行层次聚类。在人工数据集和真实数据集上的实验表明,该算法在召回率和精确率上优于K均值算法,并且增强了其鲁棒性。

关 键 词:集成学习  可扩展标记语言(XML)  文档聚类  Bagging算法
收稿时间:2008-3-17
修稿时间:2008-5-19  

Study of XML documents ensemble clustering based on Bagging
ZHAO Bin,ZHANG Yong-sheng.Study of XML documents ensemble clustering based on Bagging[J].Computer Engineering and Applications,2009,45(14):138-140.
Authors:ZHAO Bin  ZHANG Yong-sheng
Affiliation:ZHAO Bin,ZHANG Yong-sheng College of Information Science , Engineering,Sh,ong Normal University,Jinan 250014,China
Abstract:A method of ensemble learning is applied in XML documents clustering in order to improve the clustering performance.A novel vector model based on tag-path of XML documents is proposed and the documents are mapped to the model.The original datasets is sampled into several Bootstrap datasets,K-means algorithm is first run on each of the Bootstrap datasets,then hierarchical clustering algorithm is run on the sets of K-means clusters centers.The experimental result on the synthetic and real datasets shows that ...
Keywords:ensemble learning  eXtensive Markup Language(XML)  document clustering  Bagging algorithm
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号