首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
袁晓峰 《计算机时代》2014,(11):40-41,43
计算文本相似度常用基于向量空间计算夹角余弦的方法,该方法忽视了同一文本中词与词之间的语义相似度,因而造成了文本表示模型的高维性以及计算的高复杂性。为此,提出了一种文本相似度算法,利用HNC理论先计算特征词之间的语义相似度,进行必要的降维,进一步计算每个文本向量中的TF*IDF值,最后计算两个向量的空间夹角余弦值并将其作为两个文本之间的相似度。将实验结果与直接计算余弦值的结果比较发现,改进后的算法中VSM的维数明显比改进前小得多,改进后的算法提高了召回率和准确率。因此,改进后的算法是切实有效的。  相似文献   

2.
基于语义和结构的XML文档相似度的计算方法   总被引:1,自引:0,他引:1  
个性化信息服务通过了解用户的兴趣爱好,为不同的用户提供不同的信息服务。XML是一种标示语言,是Web文档表示和交换的常用相关标准,因此XML文档之间相似度计算问题对于个性化推荐与信息检索非常重要,为此提出了一个计算XML文档之间的语义和结构相似度的方法XMLSim。首先,基于节点标记对之间的语义相似度和编辑距离计算节点标记对之间的相似度;在分析了路径上节点具有的偏序关系之后,将路径之间相似度问题抽象为最大相似子序列(MSS,Maximal Similar Subsequence)问题,并利用动态规划对MSS问题求解得到路径相似度NpathSim。最后,XML文档之间的相似度XMLSim通过路径集合之间的最大NPathSim的平均值得到。  相似文献   

3.
在大量的文本数据中,针对不能快速有效地提取或查找有用信息及知识这个问题,以文本相似度计算为基础的文本数据挖掘成为数据挖掘研究领域里的一个重要的课题。论文主要研究两种不同的方法 VSM余弦算法和Simhash来实现文本相似度的计算,首先采用传统的VSM余弦算法和Simhash算法,按照余弦公式通过内积最终计算出文本间的相似度大小n(0相似文献   

4.
MD3模型是一种系统的跨本体概念间相似度的计算方法,这种方法无需建立一个集成的共享本体。本文在MD3模型的基础上,充分利用本体对概念的描述信息,重点讨论了跨本体概念间非层次关系相似度的计算,把MD3模型扩展到EMD3模型,使得概念间相似度的计算理论上更全面、更精确。  相似文献   

5.
以完成对杂乱无章的XML文档进行自动分类为目的,提出了一种基于下三角矩阵的XML文档表示方法,经过数学建模后,XML文档间的相似度比较问题转化成了矩阵之间的相似度计算。为了验证其执行效果,在采用该算法进行相似度计算的基础上,运用最近邻分类算法对XML测试文档集进行自动分类。实验结果表明,这种基于矩阵存储的XML相似度计算方法应用于分类中效果良好。  相似文献   

6.
基于模式的XML文档相似度算法   总被引:1,自引:0,他引:1       下载免费PDF全文
孙霞  程宏斌 《计算机工程》2010,36(21):54-56
提出一种基于XML模式的文档相似度算法,其中,XML模式间的相似度是XML文档聚类的重要依据,元素是XML模式的主体,模式的相似度由元素相似度组成,该算法综合考虑XML模式中元素的结构和语义信息,进一步提高计算相似度的精度。另外,该算法通过计算XML模式间的相似度,可以降低算法的复杂度,提高聚类的准确性,易于提取聚簇的通用XML模式。  相似文献   

7.
提出了一种基于WordNet和GVSM的文本相似度算法,通过语义的路径长度和路径深度计算两个词的语义相似度,结合改进的GVSM模型计算文本相似度,并对基于TFIDF-VSM模型和本文方法进行了比较.实验结果表明,该算法取得了更好的准确率和效率.  相似文献   

8.
本体相似度研究   总被引:1,自引:0,他引:1  
不同本体之间的交互成为语义Web的首要任务,其中本体相似度计算是本体映射的关健环节。在以往的研究中,本体相似度计算通常专注于模式及其结构的匹配。目前研究朝着进一步考虑本体内部语义信息方向努力。本文描述了语义相似度栈的各个层次,依据各个层次的语义特征对目前本体相似度方法进行分类,并对每种方法进行了详细描述。最后对现有一些主要的本体间相似度计算方法进行归纳总结。这项研究工作将为人们提出新的相似度方法或者组合的计算方法作一个参考。  相似文献   

9.
经分析研究开源的Lucene系统架构以及特殊xml数据源,针对Lucene搜索得分公式的不足,提出了结合词项位置和二次检索的公式,设计一种文本搜索系统;并以提高检索性能、相似性搜索的准确率、索引的空间效率和支持查询的时间效率为目标进行实验,最后通过部署Tomcat服务器实现.经实验验证,改进的系统较之于原Lucene系统提高了建立索引效率、查询效率、准确率.  相似文献   

10.
XML文档聚类是高效管理XML文档的重要手段,XML文档相似度计算正是其中的关键步骤。pq-gram算法是解决XML文档相似度计算问题的有效手段,但忽略了XML文档结点的有序性。带权重的pq-gram算法是在此基础上,依据XML文档的结构性,首先为结点赋予相应权重,然后基于结点的权重对pq-gram赋予权重,最后将设定的权重应用到XML文档相似度计算中。实验结果表明,带权重的pq-gram算法更好地描述结点在XML文档相似度计算中的贡献度,提高了XML文档相似度计算的精度。  相似文献   

11.
XML文档结构相似测度研究   总被引:2,自引:0,他引:2  
为了满足基于Web的XML数据信息的近似搜索、信息分类以及数据交换的需求,提出一种新的有效地鉴定XML文档间结构相似度的标准。该标准包含了XML文档的结构信息和节点嵌套的语义信息,可以有效地给出XML文档间的结构相似测度。通过实验证明该标准具有高度的准确性和有效性。  相似文献   

12.
一种挖掘XML文档频繁子树的方法   总被引:1,自引:0,他引:1       下载免费PDF全文
本文主要研究从由带标签有序树构成的森林中挖掘嵌入式频繁子树,具体做法是:首先对XML文档进行预处理,生成最简结构树SST,然后从SST中挖掘出频繁子树。本文提出了SSTMiner算法,该算法针对TreeMiner算法存在的瓶颈问题,结合当前所处理的SST的结构特点进行改进,进一步提高了算法执行的效率。实验证明,本文提出的方法能够准确高效地
地挖掘出XML文档中的频繁子树。  相似文献   

13.
XML文档相似性的仿真研究   总被引:1,自引:0,他引:1  
XML文档相似性的计算是XML文档分类中的一个难题。文中描述了一种基于结构的方法,通过序列化模式挖掘方法,挖掘出两个文档之间的最大相似路径,从而可以通过计算最大相似的路径的节点数目和所有路径的节点数目的比值,得到两个文档之间的相似度。文章提出了一种新的最小化XML文档的方法,并且综合考虑了文档节点的语义相似度和结构相似度,从而进一步地提高了计算文档相似度的精度。实验表明,该方法有着良好的应用前景。  相似文献   

14.
XML documents are extensively used in several applications and evolve over time. Identifying the semantics of these changes becomes a fundamental process to understand their evolution. Existing approaches related to understanding changes (diff) in XML documents focus only on syntactic changes. These approaches compare XML documents based on their structure, without considering the associated semantics. However, for large XML documents, which have undergone many changes from a version to the next, a large number of syntactic changes in the document may correspond to fewer semantic changes, which are then easier to analyze and understand. For instance, increasing the annual salary and the gross pay, and changing the job title of an employee (three syntactic changes) may mean that this employee was promoted (one semantic change). In this paper, we explore this idea and present the XChange approach. XChange considers the semantics of the changes to calculate the diff of different versions of XML documents. For such, our approach analyzes the granular syntactic changes in XML attributes and elements using inference rules to combine them into semantic changes. Thus, differently from existing approaches, XChange proposes the use of syntactic changes in versions of an XML document to infer the real reason for the change and support the process of semantic diff. Results of an experimental study indicate that XChange can provide higher effectiveness and efficiency when used to understand changes between versions of XML documents when compared with the (syntactic) state-of-the-art approaches.  相似文献   

15.
加密XML文档的一种新策略   总被引:1,自引:0,他引:1  
曹颖  郁滨 《计算机工程》2006,32(5):161-163,194
提出了加密XML文档的一种新策略,使用户从编写复杂的XML文档加密算法中解脱出来,而只需要将加密文档的策略,采用文中定义的XML格式规定,编写“加密策略描述”文件,然后将该文件提交给加密服务程序,后者根据前者所描述的加密策略,自动实现对XML文档的加密处理。与传统的通过编程实现XML文档加密的方法相比,方法在不失灵活性的同时,更加简单高效。  相似文献   

16.
基于特征路径的XML文档变化检测算法   总被引:2,自引:0,他引:2  
由于在线信息变化频繁,XML文档变化快速检测成为Internet查询系统、搜索引擎以及连续查询系统的关键技术。目前国际上的研究主要集中于有序模式的XML文档比较,针对有序模式最好的算法复杂度为O(nkgn),其中n为文档的长度,而针对无序模式为多项式时间复杂度,为提高处理效率,提出一种基于特征路径的变化检测算法,将传统标号树匹配问题转换为基于特征路径的无重复路径标号树的匹配问题,同时适于有序和无序两种模式,复杂度为O(n),其中n为文档结点的个数.实验证明KF-Diff 能够非常高效地比较XML文档。  相似文献   

17.
为了弥补树编辑距离方法时间复杂度高和频繁路径方法丢失过多语义信息的不足,建立XML文档的双向路径约束模型,从而更全面地提取XML文档的结构信息,为更精确的XML相似度计算打下基础.引入自然语言领域中成熟的N-Gram思想,将基于N-Gram的划分方式应用在路径约束相似度计算中,加快了计算效率和精确度.运用正整数和各种权值简化N-Gram信息的提取和运算.实验结果表明,方法提高了聚类的准确率和召回率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号