首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
词汇间语义相关关系量化计算方法   总被引:4,自引:0,他引:4  
词汇间语义关系的定量化研究是自然语言处理任务中一个重要的基础性工作。词汇间语义关系总体上分为等同关系、上下位关系、相关关系,现有的语义关系定量化工作主要集中于词汇间语义的等同关系(相似性)量化研究。该文研究和提出了量化词汇间语义相关关系的基本思路和新方法,即构造词汇相关关系二分图来求解和量化词汇间间接相关关系,该方法能够解决在统计语料中没有出现的词汇对的相关关系量化求解问题。实验结果表明,该文提出的方法比单纯用互信息来计算和量化词汇间语义相关关系更为可行。同时,对于一个特定词汇而言,该文的方法能够得到一个相关关系量化的相对合理的趋势性结果。  相似文献   

2.
语义向量差异性度量是采用深度学习方法解决自然语言处理领域问题的重要基础。在高维语义向量差异性度量中存在“度量集中”问题,导致通过传统的度量方法得到的度量结果无法体现语义向量间的差异性。针对该问题,提出一种基于非对称多值特征杰卡德系数的差异性度量方法。由高维语义向量维度值的统计分布得出,部分维度的维度值密集地分布在特定值域内,导致其无法贡献差异度,因此不同维度对差异性的贡献量不同,具有非对称性。该方法定义了关于维度值的重要性函数,选取重要性函数值满足阈值的维度参与差异度计算,去掉无法贡献差异度的维度,从而实现了降维,缓解了“度量集中”问题。分别在渔业数据集和公开数据集上,对不同维度的语义向量的不同度量方法进行了比较,结果表明在语义性没有明显变差的情况下,所提方法的多样性指标较目前最优的度量方法有大幅提高。  相似文献   

3.
基于本体论和词汇语义相似度的Web服务发现   总被引:122,自引:2,他引:120  
Web服务的大量涌现对服务发现提出了挑战,UDDI上基于关键词和简单分类的服务发现机制已经不能很好满足需要.该文在分析现有相关研究的基础上,提出了基于本体论和词汇语义相似度的Web服务发现方法.通过构建Web服务本体,给出一个明晰的Web服务发现的研究对象,指出可对Web服务进行的几种相似度计算,并对其中的词汇语义相似度计算进行详细讨论.文中具体给出两种词汇语义相似度计算方法,其中第一种方法计算词汇语义相似度基于词语间距离度量,第二种方法计算词汇语义相似度则建立在义原相似度基础上.引入本体论和词汇语义相似度,为Web服务相似度计算、Web服务发现提供了一种有效可行的方法.  相似文献   

4.
基于朴素贝叶斯模型的单词语义相似度度量   总被引:1,自引:0,他引:1  
单词语义相似度度量是自然语言处理领域的经典和热点问题.通过结合朴素贝叶斯模型和知识库,提出一个新颖的度量单词语义相似度度量途径.首先借助通用本体 WordNet 获取属性变量,然后使用统计和分段线性插值生成条件概率分布列,继而通过贝叶斯推理实现信息融合获得后验概率,并在此基础上量化单词语义相似度.主要贡献是定义了单词对距离和深度,并将朴素贝叶斯模型用于单词语义相似度度量.在基准数据集 R&G(65)上,对比算法评判结果与人类评判结果的相关度,采用5折交叉验证对算法进行分析,样本 Pearson 相关度达到0.912,比当前最优方法高出0.4%,比经典算法高出7%~13%;Spearman 相关度达到0.873,比经典算法高出10%~20%;且算法的运行效率和经典算法相当.实验结果显示将朴素贝叶斯模型和知识库相结合解决单词语义相似度问题是合理有效的.  相似文献   

5.
随着语义Web服务技术研究工作的不断深入,因特网上语义Web服务数量急剧增加。如何快速便捷地定位可用语义Web服务已经成为一个迫切且关键的问题。在语义Web服务匹配技术研究中,其中一个重要的研究主题就是语义Web服务匹配结果的排序机制。本文在综合概括和分析各种关于语义Web服务匹配结果排序机制的基础上,提出了一种基于语义距离度量模型的语义Web服务匹配结果排序机制,利用该排序机制,计算待匹配语义Web服务的语义相似度量,并依据此度量对语义Web服务匹配结果进行排序。该度量模型将语义Web服务引用概念间的语义关系转换成可精确比较的量化度量值,对属于相同语义匹配类型的匹配候选服务也能够分别计算语义距离,区分出相同匹配类型的候选服务与服务请求的匹配程度,从而达到改善用户对语义Web服务的搜索体验的目的。  相似文献   

6.
近来一些学者用差别矩阵或差别矩阵的思想设计了基于正区域的属性约简算法.由于计算差别矩阵是一个既消耗时间又消耗空间的过程,故这些算法的效率并不好.为了降低这类属性约简算法的复杂度,文中利用基于区分对象对的属性约简的思想,在简化决策表的基础上,定义了一个函数,该函数能度量简化决策表中条件属性集产生的区分对象对的个数,并用该函数设计了一个启发函数,同时给出了计算该启发函数的快速算法,经分析其时间和空间复杂度均为O(|U/C|).最后用该启发函数设计了一个有效的基于正区域的属性约简算法,该算法的时间复杂度降为O(|C||U|),空间复杂度降为O(|U|).文中还用一个具体实例说明了新算法的有效性.经实验证明,新算法具有较高的效率.  相似文献   

7.
一种有效的量化交易数据相似性搜索方法   总被引:7,自引:0,他引:7  
量化交易数据与一般交易数据的不同之处在于它在各个维上的值是数值型而不是二值型的。研究这种数据的有效的相似性搜索方法是一个重要而具有挑战性的课题,提出了一个新的相似性度量函数Hsim(),这个度量函数可以较好地克服Lp等传统的距离函数在高维空间中的缺点,并能将二值型和数值型数据距离的计算整合到一个统一的框架中去。结合量化交易数据的特点,构造了定义在该函数上的相似性索引结构,并对建立在该索引结构上的相似性查询方法进行了阐述。实验表明,这种搜索方法对量化交易数据的相似性搜索有较高的修剪率,能大大地加快搜索的速度。  相似文献   

8.
黄国顺  文翰 《软件学报》2018,29(11):3484-3499
通过语义分析,提出了一种拓展的粗糙集不确定性度量公理化定义;将香农熵函数推广到严凹函数,提出了一类以条件概率为自变量、基于严凹函数的粗糙集不确定性度量公式,它是严凹函数值的加权平均.在此基础上,得到一系列粗糙集不确定性度量方法.从严凹函数视角讨论了基于模糊熵的不确定性度量方法,发现现有多种能够用于度量粗糙集不确定性的模糊熵函数都是所提出方法的特殊情形.比较了粗糙度、改进粗糙度和所提出方法的区别和联系,最后设计了一些算例,比较了各种方法的异同,验证了基于严凹函数的粗糙集不确定性度量与粗糙集不确定性语义是一致的.  相似文献   

9.
基于证据理论的单词语义相似度度量   总被引:1,自引:0,他引:1  
单词语义相似度度量一直是自然语言处理领域的经典和热点问题, 其成果可对词义消歧、机器翻译、本体映射、计算语言学等应用具有重要影响. 本文通过结合证据理论和知识库,提出一个新颖的度量单词语义相似度度量途径. 首先,借助通用本体WordNet获取证据;其次,利用散点图分析证据的合理性; 然后,使用统计和分段线性插值生成基本信任分配函数;最后,结合证据冲突处理、 重要度分配和D-S合成规则实现信息融合获得全局基本信任分配函数, 并在此基础上量化单词语义相似度.在数据集RG(65)上, 对比本文算法评判结果与人类评判结果的相关度,采用5折交叉验证对算法进行分析, 相关度达到0.912,比当前最优方法PS高出0.4个百分点, 比经典算法reLHS、distJC、simLC、simL和simR高出7%~13%; 在数据集MC(30)和WordSim353上也取得了比较好的实验结果, 相关度分别为0.915和0.941;且算法的运行效率和经典算法相当. 实验结果显示使用证据理论解决单词语义相似度问题是合理有效的.  相似文献   

10.
王腾  朱青  王珊 《计算机学报》2013,36(8):1668-1681
互联网上的虚假事实陈述严重影响人们有效地获取信息,如何判定事实陈述是否可信成为一个亟待解决的问题.文中提出了一种针对事实陈述的可信判定模型MFSV.该模型针对事实陈述的特点,从互联网上搜集与待判定事实陈述相关的文本信息,度量其与对应事实陈述的语义相似度;同时,该模型考虑了相关文本信息在可信度上的差别,从受欢迎程度和重要程度两个方面度量了相关文本信息来源的可信度,并获取了相关文本信息的可信度排序;根据语义相似度以及可信度排序,衡量了相关文本信息对对应事实陈述可信判定所做出的贡献,并以此为基础实现了待判定事实陈述的可信判定.一系列的实验验证了该模型的合理性及可信判定的准确性.  相似文献   

11.
Discovery of a perceptual distance function for measuring image similarity   总被引:3,自引:0,他引:3  
For more than a decade, researchers have actively explored the area of image/video analysis and retrieval. Yet one fundamental problem remains largely unsolved: how to measure perceptual similarity between two objects. For this purpose, most researchers employ a Minkowski-type metric. Unfortunately, the Minkowski metric does not reliably find similarities in objects that are obviously alike. Through mining a large set of visual data, our team has discovered a perceptual distance function. We call the discovered function the dynamic partial function (DPF). When we empirically compare DPF to Minkowski-type distance functions in image retrieval and in video shot-transition detection using our image features, DPF performs significantly better. The effectiveness of DPF can be explained by similarity theories in cognitive psychology.  相似文献   

12.
唐雅媛  徐德智  赖雅 《计算机工程》2012,38(5):170-172,175
现有语义相似度计算方法没有充分利用本体中的语义信息,且计算方法复杂。为此,提出一种基于概念特征的语义相似度计算方法。根据概念在本体中的层次结构来确定特征集合,引入宽度影响因子,给每个特征赋予不同的权值,通过计算2个概念特征集合间的相似度得到概念的相似度,引入深度影响因子,将相似度公式表示成更直观的形式。实验结果表明,该方法计算简便,且比较接近人类主观的判断值。  相似文献   

13.
图像检索中的动态相似性度量方法   总被引:10,自引:0,他引:10  
段立娟  高文  林守勋  马继涌 《计算机学报》2001,24(11):1156-1162
为提高图像检索的效率,近年来相关反馈机制被引入到了基于内容的图像检索领域。该文提出了一种新的相关反馈方法--动态相似性度量方法。该方法建立在目前被广泛采用的图像相拟性度量方法的基础上,结合了相关反馈图像检索系统的时序特性,通过捕获用户的交互信息,动态地修正图像的相似性度量公式,从而把用户模型嵌入到了图像检索系统,在某种程度上使图像检索结果与人的主观感知更加接近。实验结果表明该方法的性能明显优于其它图像检索系统所采用的方法。  相似文献   

14.
语义相似性测度方法研究综述   总被引:1,自引:0,他引:1  
语义相似性测度是信息检索中的关键技术.回顾了基于距离的、基于信息内容的、综合了距离和信息内容的、基于图的语义相似性测度算法,认为基于图的语义相似性测度算法是今后研究的方向.  相似文献   

15.
张杰  郭小川  金城  陆伟 《计算机工程》2011,37(4):230-231
在基于内容的图像检索和分类系统中,图像的底层特征和高层语义之间存在着语义鸿沟,有效减小语义鸿沟是一个需要广泛研究的问题。为此,提出一种基于特征互补率矩阵的图像分类方法,该方法通过计算视觉特征互补率矩阵进而指导融合特征集的选择,利用测度学习算法得到一个合适的距离测度以反映图像高层语义的相似度。实验结果表明,该方法能有效提高图像分类精度。  相似文献   

16.
ABSTRACT

With the rapid growing of remotely sensed imagery data, there is a high demand for effective and efficient image retrieval tools to manage and exploit such data. In this letter, we present a novel content-based remote sensing image retrieval (RSIR) method based on Triplet deep metric learning convolutional neural network (CNN). By constructing a Triplet network with metric learning objective function, we extract the representative features of the images in a semantic space in which images from the same class are close to each other while those from different classes are far apart. In such a semantic space, simple metric measures such as Euclidean distance can be used directly to compare the similarity of images and effectively retrieve images of the same class. We also investigate a supervised and an unsupervised learning methods for reducing the dimensionality of the learned semantic features. We present comprehensive experimental results on two public RSIR datasets and show that our method significantly outperforms state-of-the-art.  相似文献   

17.
基于广义超曲面树的相似性搜索算法   总被引:2,自引:0,他引:2  
张兆功  李建中 《软件学报》2002,13(10):1969-1976
相似性搜索是数据挖掘的主要领域之一.它在数据库中检索出相似的数据,发现数据间的相似性.它可以应用于图像数据库、空间数据库和时间序列分析.对于欧氏空间(一种特殊的度量空间),相似性搜索算法中基于R-tree的方法,在低维时是高效的,当维数增加时,R-tre e的方法将退化为线性扫描.该现象被称为维数灾难(dimensionality curse),主要原因是存在数据重复.当数据量很大且维数很高时,距离计算和I/O操作将非常费时.提出了度量空间上新的空间分割方法和索引结构rgh-tree,利用数据库的数据对象与很少几个固定参考对象的距离信息进行数据分割和分布,产生一个各节点没有数据重复的平衡树.另外,在rgh-tree的基础上提出了相应的相似性搜索算法,该算法具有较小的I/O代价和距离计算次数,平均复杂性近似为o(n0.58).解决了目前算法存在的一些问题.  相似文献   

18.
文献信息网络是典型的异构信息网络,基于其进行相似性搜索是图挖掘领域的一个研究热点。然而,现有的方法主要采用元路径或元结构的方式,并未考虑节点自身的语义特征,从而导致搜索结果出现偏差。对此,基于文献信息网络提出了一种基于向量的语义特征提取方法,并设计实现了基于向量的节点相似性计算方法VSim;此外,结合元路径设计了基于语义特征的相似性搜索算法VPSim;为提高算法的执行效率,针对文献网络数据的特点,设计了剪枝策略。通过在真实数据上的实验,验证了VSim对搜索语义特征相似实体的适用性,以及VPSim算法的有效性、高执行效率和高可扩展性。  相似文献   

19.
Comparing tree-structured data for structural similarity is a recurring theme and one on which much effort has been spent. Most approaches so far are grounded, implicitly or explicitly, in algorithmic information theory, being approximations to an information distance derived from Kolmogorov complexity. In this paper we propose a novel complexity metric, also grounded in information theory, but calculated via Shannon's entropy equations. This is used to formulate a directly and efficiently computable metric for the structural difference between unordered trees. The paper explains the derivation of the metric in terms of information theory, and proves the essential property that it is a distance metric. The property of boundedness means that the metric can be used in contexts such as clustering, where second-order comparisons are required. The distance metric property means that the metric can be used in the context of similarity search and metric spaces in general, allowing trees to be indexed and stored within this domain. We are not aware of any other tree similarity metric with these properties.  相似文献   

20.
Multimedia data mining refers to pattern discovery, rule extraction and knowledge acquisition from multimedia database. Two typical tasks in multimedia data mining are of visual data classification and clustering in terms of semantics. Usually performance of such classification or clustering systems may not be favorable due to the use of low-level features for image representation, and also some improper similarity metrics for measuring the closeness between multimedia objects as well. This paper considers a problem of modeling similarity for semantic image clustering. A collection of semantic images and feed-forward neural networks are used to approximate a characteristic function of equivalence classes, which is termed as a learning pseudo metric (LPM). Empirical criteria on evaluating the goodness of the LPM are established. A LPM based k-Mean rule is then employed for the semantic image clustering practice, where two impurity indices, classification performance and robustness are used for performance evaluation. An artificial image database with 11 semantics is employed for our simulation studies. Results demonstrate the merits and usefulness of our proposed techniques for multimedia data mining.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号