首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
目前对于查询相似度的计算通常是从比对检索结果与查询式的相似度来考虑。本文提出一种基于贝叶斯分类的算法来计算XML查询结果相似度。在计算出每个检索结果文档与查询式相似度的基础上,使用贝叶斯分类器将XML检索文档分类成相关与不相关两个集合,再由计算相关文档与不相关文档的相似度来决定最终的相似度值。最后,通过实验分析表明,在不影响查全率的前提下,这样得到的相似度计算精度比传统方法高15%左右,有效地提高了检索性能。  相似文献   

2.
朴勇  王秀坤 《控制与决策》2010,25(4):497-501
对XML文档树路径模型进行扩展,加入了路径的频率信息.基于此路径-频率模型,提出一种带有位置仅重的基于路径的结构相似度计算方法(WLCS),并在此基础上提出基于路径频率的XML文档结构向量化方法.在真实数据集上的实验结果表明,WLCS方法召回率和准确率均高于当前存在的基于路径计算相似度的方法,适合于对来自不同DTD的XML文档的相似度比较.  相似文献   

3.
概念与文档的语义相似度计算   总被引:1,自引:0,他引:1  
将本体作为背景知识引入到概念之间相似度和文档之间相似度的计算中。通过图模型表示本体中概念以及概念之间的语义关系,用来将一个概念和一个文档扩展为一个语义模糊集,并计算模糊集合之间的相似度。文档相似度的计算是在概念相似度计算的基础之上。在概念相似度的计算过程中引入了语义相似度矩阵以及基于共信息理论的模糊相似度方法。  相似文献   

4.
相似度计算中的权重确定是否得当对结果的正确性有很大的关联,如果能寻找到一种更有效的权重确定方法可以对相似度计算的准确性产生根本性的帮助。针对目前相似度计算中权重确定方法的多样性,本文通过对相似度计算中的权重确定方法(该)领域的相关研究文献和成果进行综述,对各种方法进行了分类比较并分析,以期在之前研究学者的基础上对相似度计算中的权重确定方法问题进行进一步的探讨。  相似文献   

5.
基于语义和结构的XML文档相似度的计算方法   总被引:1,自引:0,他引:1  
个性化信息服务通过了解用户的兴趣爱好,为不同的用户提供不同的信息服务。XML是一种标示语言,是Web文档表示和交换的常用相关标准,因此XML文档之间相似度计算问题对于个性化推荐与信息检索非常重要,为此提出了一个计算XML文档之间的语义和结构相似度的方法XMLSim。首先,基于节点标记对之间的语义相似度和编辑距离计算节点标记对之间的相似度;在分析了路径上节点具有的偏序关系之后,将路径之间相似度问题抽象为最大相似子序列(MSS,Maximal Similar Subsequence)问题,并利用动态规划对MSS问题求解得到路径相似度NpathSim。最后,XML文档之间的相似度XMLSim通过路径集合之间的最大NPathSim的平均值得到。  相似文献   

6.
基于模式的XML文档相似度算法   总被引:1,自引:0,他引:1       下载免费PDF全文
孙霞  程宏斌 《计算机工程》2010,36(21):54-56
提出一种基于XML模式的文档相似度算法,其中,XML模式间的相似度是XML文档聚类的重要依据,元素是XML模式的主体,模式的相似度由元素相似度组成,该算法综合考虑XML模式中元素的结构和语义信息,进一步提高计算相似度的精度。另外,该算法通过计算XML模式间的相似度,可以降低算法的复杂度,提高聚类的准确性,易于提取聚簇的通用XML模式。  相似文献   

7.
基于MapReduce架构的文档相似度计算方法   总被引:2,自引:0,他引:2  
MapReduce是Google开发的在超大集群下进行海量数据运算的一种分布式编程模式。Google利用MapReduce编程模式,其搜索业务取得了巨大的成功。TF-IDF是计算词条权值的一种方法,常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级,但是计算量特别大。本文将介绍使用MapReduce架构来解决TF-IDF实现中计算量大、速度慢的问题。  相似文献   

8.
针对目前词语相似度算法中普遍存在的信息源单一化,计算结果非线性偏高,以及计算性能和效率的不一致的缺陷,提出了一种基于边权重的WordNet词语相似度的计算方法。该方法在路径与深度的基础上,通过边权重改善WordNet结构中的层次不均匀性,引入编码概念唯一标识两个概念间的相似度,并利用余弦函数修正计算结果的非线性偏差。实验结果表明,对于MC30和RG65测试集,使用该方法计算的词语相似度值与人工判定值计算得到的Pearson相关系数均达到0.87;此外,该方法在计算性能和效率上均保持较高水平。  相似文献   

9.
以完成对杂乱无章的XML文档进行自动分类为目的,提出了一种基于下三角矩阵的XML文档表示方法,经过数学建模后,XML文档间的相似度比较问题转化成了矩阵之间的相似度计算。为了验证其执行效果,在采用该算法进行相似度计算的基础上,运用最近邻分类算法对XML测试文档集进行自动分类。实验结果表明,这种基于矩阵存储的XML相似度计算方法应用于分类中效果良好。  相似文献   

10.
张丙奇  白硕  赵章界 《计算机工程》2005,31(11):25-27,126
XML数据的大量出现为信息检索、数据挖掘、智能信息处理提供了机遇和挑战,而相似度计算是XML文档检索、挖掘和深层次智能处理的基础,对相似度计算进行研究具有非常重要的意义。在对XML数据特征进行深入分析的基础上,提出了一种递归相似度计算方法,实验结果表明该方法具有较好的效果。  相似文献   

11.
基于核矩阵学习的XML文档相似度量方法   总被引:6,自引:0,他引:6  
杨建武  陈晓鸥 《软件学报》2006,17(5):991-1000
XML文档作为一种新的数据形式,成为当前的研究热点.XML文档间相似度的计算是XML文档分析、管理及文本挖掘的基础.结构链接向量模型(structuredlink vector model,简称SLVM)是一种综合考虑XML文档结构信息与内容信息进行XML文档相似度量的方法.体现XML文档结构单元关系的核矩阵在结构链接向量模型中扮演着重要角色.为自动捕获XML文档结构单元关系,提出了两种核矩阵的学习算法,分别是基于支持向量机(support vector machine,简称SVM)的回归学习算法和基于矩阵迭代的学习算法.相似搜索实验对比结果表明,基于核矩阵学习方法的XML文档相似度量方法的准确性明显优于其他方法.进一步实验表明,基于矩阵迭代学习的核矩阵学习算法与基于支持向量机的回归学习算法相比,不仅具有更高的准确性,而且所需训练文档更少、计算代价更小.  相似文献   

12.
XML文档相似性的仿真研究   总被引:1,自引:0,他引:1  
XML文档相似性的计算是XML文档分类中的一个难题。文中描述了一种基于结构的方法,通过序列化模式挖掘方法,挖掘出两个文档之间的最大相似路径,从而可以通过计算最大相似的路径的节点数目和所有路径的节点数目的比值,得到两个文档之间的相似度。文章提出了一种新的最小化XML文档的方法,并且综合考虑了文档节点的语义相似度和结构相似度,从而进一步地提高了计算文档相似度的精度。实验表明,该方法有着良好的应用前景。  相似文献   

13.
XML文档结构相似测度研究   总被引:2,自引:0,他引:2  
为了满足基于Web的XML数据信息的近似搜索、信息分类以及数据交换的需求,提出一种新的有效地鉴定XML文档间结构相似度的标准。该标准包含了XML文档的结构信息和节点嵌套的语义信息,可以有效地给出XML文档间的结构相似测度。通过实验证明该标准具有高度的准确性和有效性。  相似文献   

14.
提出了新的基于RDF的无泄露XML文档安全发布方法.将XML节点封装为RDF对象,提高了刻画推理问题的能力;基于关键字的XML文档归并方法,在结合保存的历次发布记录基础上,有效拓展了推理控制的范围;最后通过对待发布文档的剪枝实现了文档的安全发布.  相似文献   

15.
基于权重查询词的XML结构查询扩展   总被引:9,自引:0,他引:9  
万常选  鲁远 《软件学报》2008,19(10):2611-2619
文本文档信息检索中检索质量不高的一个主要原因是用户难以提出准确的描述查询意图的查询表达式. 而XML文档除了具有文本文档的内容特征外,还具有结构特征,导致用户更难以提出准确的查询表达式.为了解决这一问题,提出一种基于相关反馈的查询扩展方法,可以帮助用户构建满足查询意图的"内容 结构"的查询表达式.该方法首先进行查询词扩展,找到最能代表用户查询意图的权重扩展查询词;然后在扩展查询词的基础上进行结构查询扩展;最终形成完整的"内容 结构"的查询扩展表达式.实验结果表明,与未进行查询扩展相比,扩展后prec@10和prec@20的平均准确率提高30%以上.  相似文献   

16.
随着XML文档的广泛应用,使用实体识别技术对XML文档数据质量进行管理变得非常重要。 XML中实体识别技术主要用于在XML文档中发现同一实体的不同描述,其在数据质量管理中可以用于错误检测、数据集成等。由于XML文档是半结构化的, XML文档上的实体识别与纯文本和关系数据上的实体识别有着很大不同。文中介绍了XML文档上实体识别的概念和应用,分别讨论了 XML文档上几种实体识别技术的概念和原理,给出了相应的树匹配算法,最后得出结论并展望了未来的研究方向。  相似文献   

17.
为了弥补树编辑距离方法时间复杂度高和频繁路径方法丢失过多语义信息的不足,建立XML文档的双向路径约束模型,从而更全面地提取XML文档的结构信息,为更精确的XML相似度计算打下基础.引入自然语言领域中成熟的N-Gram思想,将基于N-Gram的划分方式应用在路径约束相似度计算中,加快了计算效率和精确度.运用正整数和各种权值简化N-Gram信息的提取和运算.实验结果表明,方法提高了聚类的准确率和召回率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号