首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于模式的XML文档相似度算法   总被引:1,自引:0,他引:1       下载免费PDF全文
孙霞  程宏斌 《计算机工程》2010,36(21):54-56
提出一种基于XML模式的文档相似度算法,其中,XML模式间的相似度是XML文档聚类的重要依据,元素是XML模式的主体,模式的相似度由元素相似度组成,该算法综合考虑XML模式中元素的结构和语义信息,进一步提高计算相似度的精度。另外,该算法通过计算XML模式间的相似度,可以降低算法的复杂度,提高聚类的准确性,易于提取聚簇的通用XML模式。  相似文献   

2.
基于XML的CBR异构案例近似匹配模型   总被引:1,自引:0,他引:1  
针对已有XML文档间相似度比较策略仅限于结构或内容单方面匹配的局限,借助基于案例的推理CBR(Case-Based Reasoning)系统的领域知识库,设计并提出一种用于解决CBR异构案例近似匹配的模型,从结构、语义及内容三方面综合考虑XML文档间的相似度。该模型一方面解决了现有XML文档相似度匹配策略无法综合结构、语义及内容三方面信息的难题;另一方面解决了现有CBR系统仅能比较同构案例的局限。  相似文献   

3.
基于核矩阵学习的XML文档相似度量方法   总被引:6,自引:0,他引:6  
杨建武  陈晓鸥 《软件学报》2006,17(5):991-1000
XML文档作为一种新的数据形式,成为当前的研究热点.XML文档间相似度的计算是XML文档分析、管理及文本挖掘的基础.结构链接向量模型(structuredlink vector model,简称SLVM)是一种综合考虑XML文档结构信息与内容信息进行XML文档相似度量的方法.体现XML文档结构单元关系的核矩阵在结构链接向量模型中扮演着重要角色.为自动捕获XML文档结构单元关系,提出了两种核矩阵的学习算法,分别是基于支持向量机(support vector machine,简称SVM)的回归学习算法和基于矩阵迭代的学习算法.相似搜索实验对比结果表明,基于核矩阵学习方法的XML文档相似度量方法的准确性明显优于其他方法.进一步实验表明,基于矩阵迭代学习的核矩阵学习算法与基于支持向量机的回归学习算法相比,不仅具有更高的准确性,而且所需训练文档更少、计算代价更小.  相似文献   

4.
XML文档的相似测度和结构索引研究   总被引:20,自引:0,他引:20  
郑仕辉  周傲英  张龙 《计算机学报》2003,26(9):1116-1122
提出了一个可用于定量度量XML文档间差异的方法(称为XED距离)。利用结点间的模拟关系,一个XML文档可以表示为一棵精简的、带权重的结构索引树,两个XML文档间的相似度可以通过计算它们的索引树间的编辑距离来测定,利用索引树可以大大提高判定两个XML文档结构相似度的效率,XED距离测度可用于XML文档的结构搜索、XML文档聚类、XML文档结构抽取、XML文档的变换检测以及XML视图的增量计算和维护等。  相似文献   

5.
由于半结构文档如XML越来越广泛的应用,在数据库和信息检索领域,对半结构XML数据相似度的研究也变得尤为重要。给定XML文档集D和用户查询q,XML检索即是从D中查找出符合q的XML文档。为了有效地进行XML信息检索,提出了一种新的计算用户查询与XML文档之间相似度的算法。该算法分为三步:基于WordNet对用户查询q进行同义词扩展得到q';将q'和D中的每一篇XML文档都进行数字签名,并通过签名之间的匹配对D进行有效过滤,除去大量不符合用户查询的文档,得到一个文档子集D',[D'?D];对q'与D'中的文档进行精确匹配得到检索结果。  相似文献   

6.
基于语义和结构的XML文档相似度的计算方法   总被引:1,自引:0,他引:1  
个性化信息服务通过了解用户的兴趣爱好,为不同的用户提供不同的信息服务。XML是一种标示语言,是Web文档表示和交换的常用相关标准,因此XML文档之间相似度计算问题对于个性化推荐与信息检索非常重要,为此提出了一个计算XML文档之间的语义和结构相似度的方法XMLSim。首先,基于节点标记对之间的语义相似度和编辑距离计算节点标记对之间的相似度;在分析了路径上节点具有的偏序关系之后,将路径之间相似度问题抽象为最大相似子序列(MSS,Maximal Similar Subsequence)问题,并利用动态规划对MSS问题求解得到路径相似度NpathSim。最后,XML文档之间的相似度XMLSim通过路径集合之间的最大NPathSim的平均值得到。  相似文献   

7.
提出了一种发现蕴藏在不同XML文档嵌套结构中的关系信息及其出现模式的新方法.可根据用户兴趣,发现描述不同实体之间联系的关系信息,抽取关系实例及其在文档中的出现模式.具体解决方案是:首先识别和收集包含用户感兴趣的实体的XML文档片段:然后根据文档片段标签的语义和文档片段的结构计算文档片段的相似度,并采用自适应阈值方法按相似度聚类文档片段.使得包含同一种关系的文档片段聚集在同一个片段簇:最后从XML文档片段簇中抽取关系实例及其出现模式.实验结果表明,对于包含有意义标签的各种XML文档,该方法能够准确地识别和抽取出描述指定实体之间联系的各种关系信息.  相似文献   

8.
XML是互联网上信息表示和数据交互的重要标准,文档分类是解决从海量信息中获取有效信息的重要方法,提出一种基于模糊路径匹配的XML文档分类方法。首先去除对分类没有影响的信息;然后采用一种混合的XML文档相似性计算方法,将XML文档表示为路径的集合。为了提高效率,删除了文档中重复出现的路径后进行模糊匹配,用匈牙利算法计算出文档间的相似度;最后使用改进的K近邻算法进行文档的分类。使用自动生成及真实的文档集进行实验,结果表明:两组文档分类的正确率均可以达到100%。  相似文献   

9.
针对现有XML文档结构相似性度量方法大多不能完全反映XML文档的结构特征,相似度计算结果精确度不高,导致聚类效果不够理想的问题,提出一种改进的相似度计算方法 SSPF(Similarity based on Sequence,Position and Frequency)。该方法充分利用提取的DOM树路径信息,对树路径间序列和位置的相似度计算进行优化,并考虑了路径频率对相似度的影响,使得文档间的相似性更为合理。实验结果表明,SSPF方法具有更加准确的相似度计算结果,聚类的各项评价指标均有所提高。  相似文献   

10.
以完成对杂乱无章的XML文档进行自动分类为目的,提出了一种基于下三角矩阵的XML文档表示方法,经过数学建模后,XML文档间的相似度比较问题转化成了矩阵之间的相似度计算。为了验证其执行效果,在采用该算法进行相似度计算的基础上,运用最近邻分类算法对XML测试文档集进行自动分类。实验结果表明,这种基于矩阵存储的XML相似度计算方法应用于分类中效果良好。  相似文献   

11.
基于XML Schema的数据有效性验证   总被引:1,自引:0,他引:1  
XML可作为行业内数据交换的标准表示。XML文档的有效性验证是检查该文档是否遵循行业规定的XML文档格式。在进行数据交换时,首先必须对XML文档表示的数据进行有效性验证。文中主要讨论.NET框架下利用XMLSchema对XML文档进行有效性验证的算法。  相似文献   

12.
We are interested in specifying functional dependencies (FDs) for data-centric XML documents (XML documents that are used mainly for data storage). FDs are a natural constraint. Specifying FDs for XML documents is more difficult because unlike relational databases, XML documents do not have uniform structures. This paper introduces XML Template Functional Dependencies (XTFDs), which are able to specify FDs for XML documents. This paper also presents a necessary and sufficient condition for an XTFD to cause data redundancy in XML documents. Further, we propose Attribute Rule and Text String Rule as two procedures that can be repeatedly applied to remove redundancy caused by XTFDs. In addition, we prove that if an XML document has data redundancy with respect to an FD specified by using the tree tuple approach, it would have data redundancy with respect to an XTFD and show by example that XTFDs can specify some FDs for XML documents that the tree tuple approach cannot.  相似文献   

13.
基于XML的Web数据库技术   总被引:3,自引:0,他引:3  
探讨了两种将关系数据转换的XML文档的语言描述及其实现技术,一种是利用RXL(Relational to XML Transformation Language)语言来定义一个关系数据库的XML视图,该XML视图的虚的,应用再利用XML查询语言XML-QL在虚的视图上构造一个查询,抽取XML视图中的数据片断并对抽取的部分进行 物化,实现将关系数据转换为XML文档。另一种是利用并扩展SQL的功能来描述这种转换,嵌套的SQL表达式被利用来描述嵌套,扩展的SQL函数被利用来描述XML元素构造,实现将关系数据构造成XML文档。  相似文献   

14.
以XML文档发布关系数据   总被引:2,自引:0,他引:2  
本文对以XML文档发布关系数据的新技术进行了综述,主要分析了两种发布关系数据到XML文档的语言描述及其实现技术,以及它们的优缺点,一种是利用并扩展SQL的功能来描述这种转换,嵌套的SQL表达式被利用来描述嵌套,扩展的SQL标量及聚集函数被利用来描述XML元素构造,实现将关系数据转换为XML文档,另一种是利用RXL(Relational to XML Transformation Language)语言来定义一个关系数据库的XML视图,该XML视图是虚的,其它应用可再利用XML查询语言XML-QL在虚拟的视图上构造一个查询,抽取XML视图中的数据片断并对抽取的部分进行物化,实现将关系数据转换为XML文档。  相似文献   

15.
XML文档聚类在众多数据应用领域都具有重要作用。基于特征偏好的XML文档聚类算法是对XML文档进行特征选择,将XML文档描述为[n]维特征向量,再结合CFP(Clustering with Feature order Preference)算法,根据特征偏好为其赋予权重,每次迭代聚类过程中进行权重的更新。实验结果表明当CFP算法中的特征偏好权重和XML文档向量化时所用的层次权重设定相结合时,可弥补XML文档向量化时的弊端,提高了XML文档聚类的精度。  相似文献   

16.
利用XML文档可以实现异构数据库之间的数据交换。各个应用系统只需将数据转换为符合行业规定的XML文档格式.就寸以相互识别交换的数据。文章介绍了在.NET框架下如何利用ADO.NET和XSLT技术将关系型数据转换为规定格式的XML文档。  相似文献   

17.
基于关系数据库的XML数据管理   总被引:15,自引:0,他引:15  
Currently,there are a great of research topics that focus on storing and querying XML data in an RDBMS,and publishing relational data as XML documents ,and querying XML views of relational data. An overview of XML data management based on RDBMS is given in this paper. Some existing technologies of storing and querying XML data in relational databases ,publishing relational data as XML documents ,and querying XML views of relational dataare sufficiently surveyed,their advantages ,disadvantages ,and causes are analyzed.  相似文献   

18.
Recently, there is an increasing research efforts in XML data mining. These research efforts largely assumed that XML documents are static. However, in reality, the documents are rarely static. In this paper, we propose a novel research problem called XML structural delta mining. The objective of XML structural delta mining is to discover knowledge by analyzing structural evolution pattern (also called structural delta) of history of XML documents. Unlike existing approaches, XML structural delta mining focuses on the dynamic and temporal features of XML data. Furthermore, the data source for this novel mining technique is a sequence of historical versions of an XML document rather than a set of snapshot XML documents. Such mining technique can be useful in many applications such as change detection for very large XML documents, efficient XML indexing, XML search engine, etc. Our aim in this paper is not to provide a specific solution to a particular mining problem. Rather, we present the vision of the mining framework and present the issues and challenges for three types of XML structural delta mining: identifying various interesting structures, discovering association rules from structural deltas, and structural change pattern-based classification.  相似文献   

19.
分析XML数据存在的安全隐患,提出了一个更安全的XML数据传输方案,并使用NET技术加以实现和验证.该方案在实现XML加密、XML数字签名和XKMS等核心标准来解决XML数据安全问题的基础上,利用XSLT 2.0技术对XML文档进行分解.并根据信息的保密等级,使用不同的XML签名和加密算法对分离后的XML文档进行安全处理.该方案提高了XML数据在非安全网络中传输的保密性、完整性和不可否认性,具有良好的灵活性和发展前景.  相似文献   

20.
XN-Store:一种原生XML数据库的存储方案   总被引:1,自引:0,他引:1  
随着XML相关标准的推广与应用,Web上出现了大量的XML文档,为了进行有效的管理,有必要将XML文档存储到数据库中,存储方案已成为XML数据管理领域研究的一个重要课题,将XML文档映射为关系表,存储到传统的RDBMS中,会破坏XML数据的树形结构,造成查询效率的下降,提出了一种新的用于原生XML数据库的存储方案--XN-Store,该方案基于索引结构将XML节点作为记录直接存储到分页文件中,建立起持久化文档对象模型,从而保持了XML数据原有的树形结构.XN-Store不仅降低了XML文档的存储空间开销,而且实现了XML节点的快速串行化输出和访问操作.作为通用的原生XML存储方案,XN-Store支持各种二级索引的创建,以提高XML查询处理的效率,采用多种数据集,分别在XN-Store和先前的XML存储系统上进行实验,比较存储空间、存储时间、串行化时间和节点访问时间.实验结果表明,XN-Store是一种高性能的原生XML数据库存储方案.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号