首页 | 本学科首页   官方微博 | 高级检索  
     

基于TreeMiner算法的XML文档结构相似度量方法
引用本文:阎红灿,王淑芬,朱晓亮,李敏强,刘保相a. 基于TreeMiner算法的XML文档结构相似度量方法[J]. 计算机应用研究, 2009, 26(5): 1706-1709
作者姓名:阎红灿  王淑芬  朱晓亮  李敏强  刘保相a
作者单位:天津大学,管理学院,天津,300072;河北理工大学,理学院,河北,唐山,063009;河北理工大学,计算中心,河北,唐山,063009;天津大学,管理学院,天津,300072;河北理工大学,理学院,河北,唐山,063009
基金项目:河北省自然科学基金资助项目(F2006000377); 高等学校博士学科点专项科研基金资助项目(20020056047)
摘    要:提出了一种基于TreeMiner算法挖掘频繁子树的文档结构相似度量方法,解决了传统的距离编辑法计算代价高而路径匹配法无法处理重复标签的问题。该方法架构了一个新的检索模型—频繁结构向量模型,给出了文档的结构向量表示和权重函数,构造了XML文档结构相似度量计算公式;同时从数据结构和挖掘程序上对TreeMiner 算法进行了改进,使其更适合大文档数据集的结构挖掘。实验结果表明,该方法具有很高的计算精度和准确率。

关 键 词:频繁结构向量模型  嵌入子树  频繁子树  结构挖掘

Method of similarity measures for XML documents structure based on TreeMiner algorithm
YAN Hong-can,WANG Shu-fen,ZHU Xiao-liang,LI Min-qiang,LIU Bao-xianga. Method of similarity measures for XML documents structure based on TreeMiner algorithm[J]. Application Research of Computers, 2009, 26(5): 1706-1709
Authors:YAN Hong-can  WANG Shu-fen  ZHU Xiao-liang  LI Min-qiang  LIU Bao-xianga
Affiliation:1.School of Management;Tianjin University;Tianjin 300072;China;2.a.College of Sciences;b.Computing Center;Hebei Polytechnic University;Tangshan Hebei 063009;China
Abstract:This paper proposed a novel way of similarity measures for XML documents structure based on TreeMiner algorithm, and resolved the high costs in distance editing and the problems of repetiition of labels in path matching designed. In this way, a new research model:frequent structure vector model (FSVM), derived the expression of document structure vector and weight function, and constructed the calculate formula to measure similarity of the two documents. In order to improve the efficiency of mining frequency subtrees in a forest, reformed the algorithm TreeMiner from data structure and miner procedure to fit to minning structure in large documents.The testing results show that this method acquires very high precision and veracity.
Keywords:frequent structure vector model   embedded subtree   frequency subtree   structure miner
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号