首页 | 本学科首页   官方微博 | 高级检索  
     

一种XML文档结构相似度计算方法
引用本文:朴勇,王秀坤.一种XML文档结构相似度计算方法[J].控制与决策,2010,25(4):497-501.
作者姓名:朴勇  王秀坤
作者单位:1. 大连理工大学软件学院,辽宁,大连,116620;大连理工大学电信学院,辽宁,大连,116023
2. 大连理工大学软件学院,辽宁,大连,116620
3. 大连理工大学电信学院,辽宁,大连,116023
摘    要:对XML文档树路径模型进行扩展,加入了路径的频率信息.基于此路径-频率模型,提出一种带有位置仅重的基于路径的结构相似度计算方法(WLCS),并在此基础上提出基于路径频率的XML文档结构向量化方法.在真实数据集上的实验结果表明,WLCS方法召回率和准确率均高于当前存在的基于路径计算相似度的方法,适合于对来自不同DTD的XML文档的相似度比较.

关 键 词:结构相似度  位置权重  最长公共子序列  
收稿时间:2009/4/27 0:00:00
修稿时间:2009/6/25 0:00:00

An Effective Path-based Algorithm to Calculate XML Similarity
PIAO Yong,TIAN Wei,WANG Xiu-kun.An Effective Path-based Algorithm to Calculate XML Similarity[J].Control and Decision,2010,25(4):497-501.
Authors:PIAO Yong  TIAN Wei  WANG Xiu-kun
Abstract:The path model of extensible markup language(XML) document is extended by adding the frequency of path. Based on this frequency-path model,a similarity calculation algorithm with position weight,weighted longest common subsequence(WLCS),is proposed,and then a new method of creating vector of the structure of XML document is proposed. The result of the experiment on true data set shows that WLCS is suitable for the similarity comparison between XML files from different DTDs,and its recall ratio and accuracy ...
Keywords:Structure similarity  Position weight  Longest common subsequence  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《控制与决策》浏览原始摘要信息
点击此处可从《控制与决策》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号