共查询到20条相似文献,搜索用时 78 毫秒
1.
对XML文档树路径模型进行扩展,加入了路径的频率信息.基于此路径-频率模型,提出一种带有位置仅重的基于路径的结构相似度计算方法(WLCS),并在此基础上提出基于路径频率的XML文档结构向量化方法.在真实数据集上的实验结果表明,WLCS方法召回率和准确率均高于当前存在的基于路径计算相似度的方法,适合于对来自不同DTD的XML文档的相似度比较. 相似文献
2.
协同过滤算法是目前应用最广、最成熟的个性化推荐技术,本文对协同过滤算法中的关键步骤-用户相似度计算进行探讨,归纳相似度计算的不同方法及各方法的特点,并综合以上方法提出改进思路。 相似文献
3.
为了解决检测机构这一特殊对象之间的相似度计算问题,提出一种基于属性加权的相似度计算方法。通过层次分析法计算检测机构属性的权重,计算各个对应属性间的相似度,加权求和得到两家检测机构之间的相似度。该计算实例表明方法的有效性。 相似文献
4.
概念与文档的语义相似度计算 总被引:1,自引:0,他引:1
将本体作为背景知识引入到概念之间相似度和文档之间相似度的计算中。通过图模型表示本体中概念以及概念之间的语义关系,用来将一个概念和一个文档扩展为一个语义模糊集,并计算模糊集合之间的相似度。文档相似度的计算是在概念相似度计算的基础之上。在概念相似度的计算过程中引入了语义相似度矩阵以及基于共信息理论的模糊相似度方法。 相似文献
5.
基于文本分类的文档相似度计算 总被引:1,自引:0,他引:1
如何从成千上万篇文档中找出与指定文档相似的所有文档,首先要做的第一件事就是判断其类别,也就是分类;在判定类别后,再进一步计算,找出同类中所有与指定文档内容相似的文档。由于文档相似度的计算和文本分类过程很相似,所以可以借助指定文档的分类结果,即类别和文档特征向量值,通过进一步计算与同类中其他文档的相似度值,找出超过阂值的文档,即找出与指定目标内容相似的文档。 相似文献
6.
传统的计算数字文档之间的结构相似度(DSS)的方法是基于树的编辑距离或Fourier变换.本文提出利用查询问题的结构化描述树Q与文档元数据描述树T之间的部分-整体匹配求解DSS.给出用字符串表示有向标记树的方法,并把上述树之间的相似度计算转化为对应Q和T的字符串表示之间的匹配计算,从而导出高效的DSS算法.实验表明,对给定的结构化查询,本文算法在查全率和查准率上优于树编辑距离算法. 相似文献
7.
排比句具有结构紧凑、句式整齐、富有表现力等鲜明的特点,广泛应用在各种文体之中,在近几年语文高考的鉴赏类问题中也多有考察,但在自动识别方面的研究还鲜有涉及。该文依据排比句结构相似、内容相关的特点,以句子的词性、词语作为基本特征,设计了融合卷积神经网络和结构相似度计算的排比句识别方法。首先将词向量和词性向量融入句子的分布式表示中,利用多个卷积核对其进行卷积操作,设计出基于卷积神经网络的排比句识别方法。利用分句之间的词性串构造相似度计算,设计了基于结构相似度计算的排比句识别方法。同时考虑句子内部的语义相关性和结构相似性,将卷积神经网络和结构相似度计算方法融合,用于排比句的识别。对文学作品数据集和高考题中的文学类阅读材料数据集进行排比句识别实验,验证了该文所提的方法是有效的。 相似文献
8.
针对OAI-PMH存在大量相似的元数据,结合元数据内容的结构特性,提出了一种基于向量空间模型的OAIPMH元数据相似度的计算方法.为了较好地反映特征项在元数据内容不同层次的重要程度,采用了结构层次权重系数改进的TF-IDF方法来计算特征项权重.实验分析表明,使用该方法对元数据之间相似度的计算是有效的、可行的.为用户在搜索查询时提供了基于元数据的相似资源,方便了用户,提高了信息服务质量. 相似文献
9.
基于语义和结构的XML文档相似度的计算方法 总被引:1,自引:0,他引:1
个性化信息服务通过了解用户的兴趣爱好,为不同的用户提供不同的信息服务。XML是一种标示语言,是Web文档表示和交换的常用相关标准,因此XML文档之间相似度计算问题对于个性化推荐与信息检索非常重要,为此提出了一个计算XML文档之间的语义和结构相似度的方法XMLSim。首先,基于节点标记对之间的语义相似度和编辑距离计算节点标记对之间的相似度;在分析了路径上节点具有的偏序关系之后,将路径之间相似度问题抽象为最大相似子序列(MSS,Maximal Similar Subsequence)问题,并利用动态规划对MSS问题求解得到路径相似度NpathSim。最后,XML文档之间的相似度XMLSim通过路径集合之间的最大NPathSim的平均值得到。 相似文献
10.
提出了一种结合权值矩阵和相似性系数矩阵构造的区域匹配方法。该方法首先运用色彩相似性和距离临近性对窗内的每一点相对于待匹配点的自适应权值进行分配,得到一个权值矩阵,为了提高在视差不连续区域的匹配精度,使用了边界点矩阵来降低相对应点的权值。然后在RGB色彩空间中根据待匹配点和对应点的匹配窗内的每一点的颜色绝对差值和来自适应分配相似性系数矩阵。最后利用上述方法对Middlebury网站上提供的四幅立体图像对Tsukuba、Venus、Teddy和Cones进行了实验,总体正确率分别达到了91.82%、96.19%、76.6%和86.9%。 相似文献
11.
12.
领域本体的概念相似度计算 总被引:11,自引:1,他引:11
随着本体在信息检索、人工智能等领域的广泛应用,面向本体的概念相似度计算成为了本体研究的一大热点。当前领域本体中概念相似度的研究主要是利用概念的上下位关系进行计算,但这并没有完整反映出概念的语义信息。论文提出的算法将概念相似度计算分为两层,一层是概念语义初始相似度层,其主要利用概念之间的距离来计算概念的初始相似度。另一层是概念非上下位关系相似度层,其在概念初始相似度的基础上,计算概念通过非上下位关系体现出的相似度。最后通过综合计算,得到领域本体中概念的实际相似度。实验证明,该方法充分利用了本体中概念的语义信息,得到的结果也比较合理。 相似文献
13.
本体中概念相似度的计算 总被引:10,自引:0,他引:10
本体是概念、属性和关系的集合。本体异构是本体间互操作的主要障碍,解决本体异构最好的方法是本体映射。本体映射的关键是概念相似度的计算,但计算时一般不考虑关系和属性对相似度的影响,计算结果存在误差。论文从两个方面对概念的相似度进行计算。首先计算概念的语义相似度,然后计算概念描述相似度。实验表明该计算方式可以提高计算结果的精确度。 相似文献
14.
本体是概念、属性和关系的集合.本体映射是解决本体异构的最好方法。文中针对目前本体映射过程中概念相似度计算存在的问题,提出一种综合的相似度计算方法。先根据本体中两个概念名称的相似性,选出最相关的概念,减少相似度的计算,然后分别基于概念的属性、实例和关系来计算概念相似度,并进行综合得到概念相似度。在计算属性相似度时,先通过计算属性的信息增益来确定各个属性的优先级,最后只选取几个信息增益大的属性进行相似度的计算,从而减小计算量。 相似文献
15.
文本相似度的计算在数字图书馆系统里有着广泛的应用前景。该文采用余弦系数和向量空间模型计算文本的相似度,并给出了实现的方法。 相似文献
16.
17.
黄莉 《计算机与数字工程》2014,(1):9-13
针对当前主要的汉语句子相似度计算方法存在的问题,通过对大量的中文语句进行构式语义分析,提取构式语块特征,构建构式义特征库,并提出了一种基于构式语块的中文句子相似度计算方法.该方法最大化语块粒度,缩小语义理解间隙.在计算时,首先,通过自上而下语块分析方法,利用HMM学习算法,对复杂多样的汉语句子进行构式语块识别;然后,采用自底向上的计算方式,获取得到构式块间的相似度;最后,计算得出句子间的相似度量值.对比句子相似度实验结果表明,论文提出的计算方法优于其他算法. 相似文献
18.
Ana G. Maguitman Filippo Menczer Fulya Erdinc Heather Roinestad Alessandro Vespignani 《World Wide Web》2006,9(4):431-456
Automatic extraction of semantic information from text and links in Web pages is key to improving the quality of search results.
However, the assessment of automatic semantic measures is limited by the coverage of user studies, which do not scale with
the size, heterogeneity, and growth of the Web. Here we propose to leverage human-generated metadata—namely topical directories—to
measure semantic relationships among massive numbers of pairs of Web pages or topics. The Open Directory Project classifies
millions of URLs in a topical ontology, providing a rich source from which semantic relationships between Web pages can be
derived. While semantic similarity measures based on taxonomies (trees) are well studied, the design of well-founded similarity
measures for objects stored in the nodes of arbitrary ontologies (graphs) is an open problem. This paper defines an information-theoretic
measure of semantic similarity that exploits both the hierarchical and non-hierarchical structure of an ontology. An experimental
study shows that this measure improves significantly on the traditional taxonomy-based approach. This novel measure allows
us to address the general question of how text and link analyses can be combined to derive measures of relevance that are
in good agreement with semantic similarity. Surprisingly, the traditional use of text similarity turns out to be ineffective
for relevance ranking. 相似文献
19.
简要介绍集合论与映射关系,论述相似关系的符号、表达式,关系处理和有关运算规则,并用以表征有关综合仿真系统的相似方式、相似方法、相似程度,从而形成一套有关系统仿真的综合相似理论体系,并与综合系统论、控制理论相结合形成组合理论,以便有效地分析、研究、设计、生产和运行综合仿真系统。 相似文献
20.
讨论了可执行文件的比较方法,在基于图的指令相似性比较和结构化二进制比较的基础上给出了一种改进的可执行文件比较算法.该算法首先利用结构化比较获得一组固定点,再从每个固定点开始进行指令相似性比较.该算法融合了两种方法的优点,并使得它们相互弥补了各自的不足,减少了比较结果漏报和误报的可能性. 相似文献