首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 296 毫秒
1.
基于模式的XML文档相似度算法   总被引:1,自引:0,他引:1       下载免费PDF全文
孙霞  程宏斌 《计算机工程》2010,36(21):54-56
提出一种基于XML模式的文档相似度算法,其中,XML模式间的相似度是XML文档聚类的重要依据,元素是XML模式的主体,模式的相似度由元素相似度组成,该算法综合考虑XML模式中元素的结构和语义信息,进一步提高计算相似度的精度。另外,该算法通过计算XML模式间的相似度,可以降低算法的复杂度,提高聚类的准确性,易于提取聚簇的通用XML模式。  相似文献   

2.

扩展标记语言(XML) 带有一定的结构和语义信息, 与普通文本相比, XML具有描述精确、表现形式丰富等特点, 但同时也使得传统的自然语言处理和数据挖掘等技术不能直接应用. 根据XML内容和结构并非独立, 内容影响结构, 结构作用于内容, 提出一种基于张量的XML特征降维及综合相似度计算方法. 针对XML文档, 使用张量表示并采用基于最大互信息的方法对其进行降维, 采用将XML结构和内容相融合的综合相似度度量方法确定结构和内容的内在联系及共同作用方式, 提高XML综合相似度计算性能. 实验及结果分析验证了所提出方法的有效性.

  相似文献   

3.
XML文档结构相似测度研究*   总被引:2,自引:0,他引:2  
为了满足基于Web的XML数据信息的近似搜索、信息分类以及数据交换的需求,提出一种新的有效地鉴定XML文档间结构相似度的标准。该标准包含了XML文档的结构信息和节点嵌套的语义信息,可以有效地给出XML文档间的结构相似测度。通过实验证明该标准具有高度的准确性和有效性。  相似文献   

4.
针对VSM不能揭示文档中特征词间的潜在语义关系,相似度计算准确性较低的问题,结合本体模型的结构特点,从语义重合度、语义距离以及本体结构等因素综合考虑概念间的相似度计算,提出了一种基于领域本体的文档向量空间模型。该模型通过构建概念间的语义相似度矩阵对特征词权值进行调整,建立包含语义关系的标准(学生)答案的向量空间模型,并用"VSM模型+余弦值"算法评估学生答案和标准答案的相似度。实验表明,与传统方法相比,该方法提高了评测效果及准确率。  相似文献   

5.
基于核矩阵学习的XML文档相似度量方法   总被引:6,自引:0,他引:6  
杨建武  陈晓鸥 《软件学报》2006,17(5):991-1000
XML文档作为一种新的数据形式,成为当前的研究热点.XML文档间相似度的计算是XML文档分析、管理及文本挖掘的基础.结构链接向量模型(structuredlink vector model,简称SLVM)是一种综合考虑XML文档结构信息与内容信息进行XML文档相似度量的方法.体现XML文档结构单元关系的核矩阵在结构链接向量模型中扮演着重要角色.为自动捕获XML文档结构单元关系,提出了两种核矩阵的学习算法,分别是基于支持向量机(support vector machine,简称SVM)的回归学习算法和基于矩阵迭代的学习算法.相似搜索实验对比结果表明,基于核矩阵学习方法的XML文档相似度量方法的准确性明显优于其他方法.进一步实验表明,基于矩阵迭代学习的核矩阵学习算法与基于支持向量机的回归学习算法相比,不仅具有更高的准确性,而且所需训练文档更少、计算代价更小.  相似文献   

6.
XML文档相似性的仿真研究   总被引:1,自引:0,他引:1  
XML文档相似性的计算是XML文档分类中的一个难题。文中描述了一种基于结构的方法,通过序列化模式挖掘方法,挖掘出两个文档之间的最大相似路径,从而可以通过计算最大相似的路径的节点数目和所有路径的节点数目的比值,得到两个文档之间的相似度。文章提出了一种新的最小化XML文档的方法,并且综合考虑了文档节点的语义相似度和结构相似度,从而进一步地提高了计算文档相似度的精度。实验表明,该方法有着良好的应用前景。  相似文献   

7.
模式匹配用于发现不同数据源中概念之间的语义对应关系,已成为数据集成、数据交换等领域的研究热点。研究者提出了大量的基于XML模式匹配方法,从而可以识别XML中数据的语义对应关系。XML模式匹配存在着一些挑战,例如如何将节点和结构匹配进行综合考虑,如何有效拟合多种相似度等。面对如上问题,针对XML节点和结构两方面进行相似度计算,得到相似度矩阵后整合这两个方面的相似度。随后通过多种策略组合和优化算法进行拟合,以得到优化的匹配结果。最后,通过基准测试平台对比,该方法相比于经典的模式匹配方法具有较高的精确率和召回率。  相似文献   

8.
针对用户查询与知识文档间检索失配问题,提出了一种基于相似度矩阵的本体检索匹配算法。该方法是对现有的检索匹配算法的一种改进。方法利用领域本体来快速确定候选匹配集;进而从三个层次来综合计算元素间的相似度;利用相似度矩阵得到两本体间的相似度。实验结果表明,在查全率、查准率和响应时间方面都有较好的表现。  相似文献   

9.
由于半结构文档如XML越来越广泛的应用,在数据库和信息检索领域,对半结构XML数据相似度的研究也变得尤为重要。给定XML文档集D和用户查询q,XML检索即是从D中查找出符合q的XML文档。为了有效地进行XML信息检索,提出了一种新的计算用户查询与XML文档之间相似度的算法。该算法分为三步:基于WordNet对用户查询q进行同义词扩展得到q';将q'和D中的每一篇XML文档都进行数字签名,并通过签名之间的匹配对D进行有效过滤,除去大量不符合用户查询的文档,得到一个文档子集D',[D'?D];对q'与D'中的文档进行精确匹配得到检索结果。  相似文献   

10.
于亚君  姜瑛 《计算机工程与应用》2012,48(20):177-181,210
基于XML树的匹配已被广泛应用于数据挖掘、自然语言自处理、图像检索等领域。通过分析现有的基于XML树的匹配度计算方法,发现存在对计算的前期要求(如权值分割)太过严格、匹配度结果存在误差等问题,影响了匹配的精度和效率。基于XML的内容约束和结构约束,综合结点相似度和层次相似度,提出一种结构相似度计算公式,改进了匹配计算结果的准确度,并通过实验验证了公式的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号