首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 703 毫秒
1.
XML文档的相似测度和结构索引研究   总被引:20,自引:0,他引:20  
郑仕辉  周傲英  张龙 《计算机学报》2003,26(9):1116-1122
提出了一个可用于定量度量XML文档间差异的方法(称为XED距离)。利用结点间的模拟关系,一个XML文档可以表示为一棵精简的、带权重的结构索引树,两个XML文档间的相似度可以通过计算它们的索引树间的编辑距离来测定,利用索引树可以大大提高判定两个XML文档结构相似度的效率,XED距离测度可用于XML文档的结构搜索、XML文档聚类、XML文档结构抽取、XML文档的变换检测以及XML视图的增量计算和维护等。  相似文献   

2.
基于结构与文本关键词相关度的XML网页分类研究   总被引:9,自引:0,他引:9  
针对XML网页特点,提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法,根据计算的结果提取XML网页特征,同时设计了一种基于支持向量机的XML网页多类分类算法.算法通过XML文档的训练样本集为每一类文档建立基于相似公共特征的聚类核,计算测试样本中的文档与每个聚类核的相似度,判断该文档的所属类.实验证明该分类算法具有比较高的分类查全率和查准率,能够较好地解决XML文档同时属于多个类的问题.  相似文献   

3.
针对当前XML文档信息查询算法的不足,提出一种基于有效路径权重的树匹配算法。在保持XML文档树有效结点和树结构的基础上,树根结点信息最重要,随着树深度增加,结点信息重要性逐渐减弱的特点,按照路径层次自动计算路径权重,并赋予相应路径,根据树结点的有效信息和树结构的有效路径计算树的匹配度。在大规模XML文档查询方面,实验验证了该算法在保证较高查准率和查全率的基础上,有效提高了查询效率。  相似文献   

4.
缪丰羽  王宏志 《计算机科学》2016,43(11):284-290
模糊XML文档是指包含不确定信息的XML文档。在模糊XML文档查询方面,现有的研究成果较少,并且都是基于树型结构的XML文档进行的。针对图结构下模糊XML文档的特征,设计了一组高效的图结构模糊XML文档上的模式匹配算法。该算法基于一种适合于图结构文档的索引方式,采用自底向上的结点匹配顺序,大大减少了结点的重复判断操作,也不需要进行局部匹配结果的归并以及针对PC关系设计额外的过滤函数。理论分析以及实验结果证明,提出的模式匹配算法不仅在小枝查询性能上优于现有的相关算法,而且能够较好地实现DAG模式匹配查询。  相似文献   

5.
由于半结构文档如XML越来越广泛的应用,在数据库和信息检索领域,对半结构XML数据相似度的研究也变得尤为重要。给定XML文档集D和用户查询q,XML检索即是从D中查找出符合q的XML文档。为了有效地进行XML信息检索,提出了一种新的计算用户查询与XML文档之间相似度的算法。该算法分为三步:基于WordNet对用户查询q进行同义词扩展得到q';将q'和D中的每一篇XML文档都进行数字签名,并通过签名之间的匹配对D进行有效过滤,除去大量不符合用户查询的文档,得到一个文档子集D',[D'?D];对q'与D'中的文档进行精确匹配得到检索结果。  相似文献   

6.
王毅  刘云生  钟昊 《计算机工程》2005,31(19):46-48
提出了XML Schema模式文档的优化存储结构和解析算法,解析算法中针对XSD文档特点采用虚拟链表,提高解析效率。解析后得到以结点为单位的XSD文档树直接存储,进一步利用XSD文档的优化存储结构提高XML文档的模式验证效率,并通过了试验验证。  相似文献   

7.
XML文档相似性的仿真研究   总被引:1,自引:0,他引:1  
XML文档相似性的计算是XML文档分类中的一个难题。文中描述了一种基于结构的方法,通过序列化模式挖掘方法,挖掘出两个文档之间的最大相似路径,从而可以通过计算最大相似的路径的节点数目和所有路径的节点数目的比值,得到两个文档之间的相似度。文章提出了一种新的最小化XML文档的方法,并且综合考虑了文档节点的语义相似度和结构相似度,从而进一步地提高了计算文档相似度的精度。实验表明,该方法有着良好的应用前景。  相似文献   

8.
讨论了如何精确计算结构化文档相关度的理论模型和算法.首先分析了基于语义内容的文档相关度和基于文档特征的文档相似度之间的区别,提出利用树同构思想测量文档语义相关性.在计算过程中,通过为结点赋予不同权重反映匹配结点的位置重要性,对于未匹配结点则首次提出利用影响因子针对不同情况做适当区分,最后给出文档相关度计算公式.实验证明,此方法能够很好地区分信息检索中的模糊或者相近的请求及文档.  相似文献   

9.
XML文档的广泛应用对其安全性提出了越来越高的要求,访问控制技术作为安全控制的一部分也变得更加重要.过去对XML文档访问控制技术的研究很少将其与时态信息结合起来.在XML访问控制技术的基础上,结合XML文档的特点阐述了面向XML文档的时态访问控制模型.该模型通过在XML叶子结点上引入双时态标签来描述XML文档的时态信息,通过在访问控制策略中引入时间约束条件的因子,通过时态访问控制算法来完成对XML文档的时态安全控制并给出了模拟实现机制.  相似文献   

10.
XML文档到关系数据库的转换研究   总被引:1,自引:0,他引:1  
XML作为网络数据交换的标准技术,广泛应用于计算机软件.目前存储数据的主流手段是关系数据库,因此XML文档与关系数据库之间必须进行转换.通过分析XML文档的层次结构,建立了XML文档树模型,并给出结点定义.依据XML的BNF规则给出了元素与属性的正规表达式和相对应的状态转换图,设计了识别元素和属性的词法分析程序用于解析XML文档.提出了XML文档树到关系数据库存储的转换思想和算法,并结合实例给出转换后的关系表.  相似文献   

11.
目前对于查询相似度的计算通常是从比对检索结果与查询式的相似度来考虑。本文提出一种基于贝叶斯分类的算法来计算XML查询结果相似度。在计算出每个检索结果文档与查询式相似度的基础上,使用贝叶斯分类器将XML检索文档分类成相关与不相关两个集合,再由计算相关文档与不相关文档的相似度来决定最终的相似度值。最后,通过实验分析表明,在不影响查全率的前提下,这样得到的相似度计算精度比传统方法高15%左右,有效地提高了检索性能。  相似文献   

12.
以完成对杂乱无章的XML文档进行自动分类为目的,提出了一种基于下三角矩阵的XML文档表示方法,经过数学建模后,XML文档间的相似度比较问题转化成了矩阵之间的相似度计算。为了验证其执行效果,在采用该算法进行相似度计算的基础上,运用最近邻分类算法对XML测试文档集进行自动分类。实验结果表明,这种基于矩阵存储的XML相似度计算方法应用于分类中效果良好。  相似文献   

13.
设计了一种对基于XML描述的软件构件进行聚类的算法(即基于模拟退火的构件聚类算法),该算法通过模拟金属退火基本原理对构件库中的软件构件聚类进行全局优化.构件聚类时,根据一般意义的树间编辑距离,提出一种用于判断基于XML描述的构件间是否相似的度量测度(称为XML编辑距离).利用XML编辑距离,可将构件间相似性度量的时间复杂度限制在多项式级,且能保持构件的XML描述文档的节点语义信息和节点间的祖孙嵌套关系.最后,在构件库测试模型上进行实验,结果证实了基于模拟退火的构件聚类算法在构件查询实践中的可行性和有效性.  相似文献   

14.

扩展标记语言(XML) 带有一定的结构和语义信息, 与普通文本相比, XML具有描述精确、表现形式丰富等特点, 但同时也使得传统的自然语言处理和数据挖掘等技术不能直接应用. 根据XML内容和结构并非独立, 内容影响结构, 结构作用于内容, 提出一种基于张量的XML特征降维及综合相似度计算方法. 针对XML文档, 使用张量表示并采用基于最大互信息的方法对其进行降维, 采用将XML结构和内容相融合的综合相似度度量方法确定结构和内容的内在联系及共同作用方式, 提高XML综合相似度计算性能. 实验及结果分析验证了所提出方法的有效性.

  相似文献   

15.
XML has recently become very popular as a means of representing semistructured data and as a standard for data exchange over the Web, because of its varied applicability in numerous applications. Therefore, XML documents constitute an important data mining domain. In this paper, we propose a new method of XML document clustering by a global criterion function, considering the weight of common structures. Our approach initially extracts representative structures of frequent patterns from schemaless XML documents using a sequential pattern mining algorithm. Then, we perform clustering of an XML document by the weight of common structures, without a measure of pairwise similarity, assuming that an XML document is a transaction and frequent structures extracted from documents are items of the transaction. We conducted experiments to compare our method with previous methods. The experimental results show the effectiveness of our approach.  相似文献   

16.
XML文档聚类在众多数据应用领域都具有重要作用。基于特征偏好的XML文档聚类算法是对XML文档进行特征选择,将XML文档描述为[n]维特征向量,再结合CFP(Clustering with Feature order Preference)算法,根据特征偏好为其赋予权重,每次迭代聚类过程中进行权重的更新。实验结果表明当CFP算法中的特征偏好权重和XML文档向量化时所用的层次权重设定相结合时,可弥补XML文档向量化时的弊端,提高了XML文档聚类的精度。  相似文献   

17.
朴勇  王秀坤 《控制与决策》2010,25(4):497-501
对XML文档树路径模型进行扩展,加入了路径的频率信息.基于此路径-频率模型,提出一种带有位置仅重的基于路径的结构相似度计算方法(WLCS),并在此基础上提出基于路径频率的XML文档结构向量化方法.在真实数据集上的实验结果表明,WLCS方法召回率和准确率均高于当前存在的基于路径计算相似度的方法,适合于对来自不同DTD的XML文档的相似度比较.  相似文献   

18.
Fast and effective clustering of XML data using structural information   总被引:2,自引:2,他引:0  
This paper presents the incremental clustering algorithm, XML documents Clustering with Level Similarity (XCLS), that groups the XML documents according to structural similarity. A level structure format is introduced to represent the structure of XML documents for efficient processing. A global criterion function that measures the similarity between the new document and existing clusters is developed. It avoids the need to compute the pair-wise similarity between two individual documents and hence saves a huge amount of computing effort. XCLS is further modified to incorporate the semantic meanings of XML tags for investigating the trade-offs between accuracy and efficiency. The empirical analysis shows that the structural similarity overplays the semantic similarity in the clustering process of the structured data such as XML. The experimental analysis shows that the XCLS method is fast and accurate in clustering the heterogeneous documents by structures.  相似文献   

19.
余宏  万常选 《计算机工程》2010,36(1):85-86,9
针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传统方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号