首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 546 毫秒
1.
语义相似度计算就是把词语间语言学上的信息映射为0到1之间的数值.基于知识本体的语义相似度计算方法,利用知识本体提供的信息,建立词语关系和语义相似度之间的函数关系,该方法可解释性强、使用简单,成为语义相似度计算的一类重要方法.提出了一种基于《同义词词林》的语义相似度计算模型,该模型运用遗传算法探索了《同义词词林》语义编码...  相似文献   

2.
针对三维模型语义检索应用,提出一种三维模型语义自动标注方法,建立三维模型内容特征和语义特征之间的映射关系。首先,利用基于深度信息的特征提取方法计算三维模型形状特征描述符,在单位立方体的六个面上正交投影后获取六幅深度缓存图像,提取图像二维傅立叶变换后的270维低频系数作为三维模型内容特征。其次,针对语义词汇之间相似度计算需要,提出一种语义相似度计算方法,采用本体层次结构的深度、宽度、同义词集密度信息计算词汇信息量,定义语义词汇间的信息量关系,得到语义相似度。再次,利用语义排歧策略消除语义词汇二义性,提高语义词汇相似度计算的准确性。最后,融合三维模型内容特征相似度计算和本体语义相似度计算方法,利用样本库中相似模型包含的词汇概率信息和模型内容相似度值,计算待标注模型的语义描述信息。通过模型标注实验,验证了该方法的准确性。  相似文献   

3.
将传统的文本相似度量方法直接移植到短文本时,由于短文本内容简短的特性会导致数据稀疏而造成计算结果出现偏差。该文通过使用复杂网络表征短文本,提出了一种新的短文本相似度量方法。该方法首先对短文本进行预处理,然后对短文本建立复杂网络模型,计算短文本词语的复杂网络特征值,再借助外部工具计算短文本词语之间的语义相似度,然后结合短文本语义相似度定义计算短文本之间的相似度。最后在基准数据集上进行聚类实验,验证本文提出的短文本相似度计算方法在基于F-度量值标准上,优于传统的TF-IDF方法和另一种基于词项语义相似度的计算方法。  相似文献   

4.
通过分析已有的基于统计和基于语义分析的文本相似性度量方法的不足,提出了一种新的基于语言网络和词项语义信息的文本相似度计算方法。对文本建立语言网络,计算网络节点综合特征值,选取TOP比例特征词表征文本,有效降低文本表示维度。计算TOP比例特征词间的相似度,以及这些词的综合特征值所占百分比以计算文本之间的相似度。利用提出的相似度计算方法在数据集上进行聚类实验,实验结果表明,提出的文本相似度计算方法,在F-度量值标准上优于传统的TF-IDF方法以及另一种基于词项语义信息的相似度量方法。  相似文献   

5.
来自异构数据源的语义数据集之间关联的缺失严重影响了数据网的构建和发展。语义数据集中,实例数据之间共指关系的发现和构建能够丰富数据集之间的关联,从而有助于在数据集之间进行推理和查询。在基于相似度分析的共指关系构建的过程中,实例属性的权重及属性值的相似度对实例相似度具有重要作用。提出一种新的基于数据集统计信息计算属性权重的模型,并从概率统计的角度证明其合理性。同时分析了这种权重计算模型相对于传统的权重计算方法的优势。基于新的权重计方法,实现了共指关系构建系统,并利用开放的语义数据集验证了其正确性。  相似文献   

6.
基于上下文的概念语义相似度计算模型   总被引:2,自引:0,他引:2       下载免费PDF全文
吕林涛  董迎 《计算机工程》2010,36(21):59-61
针对概念语义相似度计算方法在信息检索中存在的漏检、误检等问题,提出一种基于上下文的计算本体内概念间语义相似度的模型。该模型分别从概念的父节点、子节点以及概念间路径权重3个角度进行计算,加权求和并求得语义相似度。实验结果表明,该模型的计算结果更加接近专家的经验值,为概念之间的语义关系提供了有效的量化。  相似文献   

7.
微博文本长度短,且网络新词层出不穷,使得传统方法在微博事件追踪中效果不够理想。针对该问题,提出一种基于词向量的微博事件追踪方法。词向量不仅可以计算词语之间的语义相似度,而且能够提高微博间语义相似度计算的准确率。该方法首先使用Skip-gram模型在大规模数据集上训练得到词向量;然后通过提取关键词建立初始事件和微博表示模型;最后利用词向量计算微博和初始事件之间的语义相似度,并依据设定阈值进行判决,完成事件追踪。实验结果表明,相比传统方法,该方法能够充分利用词向量引入的语义信息,有效提高微博事件追踪的性能。  相似文献   

8.
跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获取。该文提出一种融合门控卷积神经网络和自注意力机制的神经网络结构,用于获取跨语言文本句子中的局部和全局语义相关关系,从而得到文本的综合语义表示。在SemEval-2017多个数据集上的实验结果表明,该文提出的模型能够从多个方面捕捉句子间的语义相似性,结果优于基准方法中基于纯神经网络的模型方法。  相似文献   

9.
为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。  相似文献   

10.
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。  相似文献   

11.
语义相似度计算旨在计算文本之间在语义层面的相似程度,是自然语言处理中一项重要的任务。针对现有的计算方法不能充分表示句子的语义特征的问题,提出基于Transformer编码器的语义特征抽取的模型TEAM,利用Transformer模型的上下文语义编码能力充分提取句子内的语义信息,对句子进行深层语义编码。此外,通过引入交互注意力机制,在编码两个句子时利用交互注意力机制提取两个句子之间关联的相似特征,使模型更擅长捕捉句子内部重要的语义信息,提高了模型对语义的理解和泛化能力。实验结果表明,该模型在英文和中文的语义相似度计算任务上能够提高结果的准确性,较已有方法表现出更好的效果。  相似文献   

12.
针对现有度量方法中考虑因素不够全面和因子权重计算依据经验确定的不足,提出粒子群优化BP神经网络(PSO-BP)的地理本体概念语义相似度度量模型。该模型利用本体属性、本体结构和语义关系的相似度,结合权重信息计算概念的综合相似度;同时,利用粒子群算法优化的BP神经网络获取因子权重,避免现有方法中因子权重确定的人为主观干扰。最后,从基础地理信息概念中提取出200组样本,用其中190组作为训练集,对神经网络模型进行训练,以获取权重;剩余10组作为测试集。将该模型和几种常用算法进行对比,通过分析测试集的各算法求解结果和专家判定结果之间的相关系数,结果表明该模型计算地理本体概念的相似度更为准确,符合人类认知特性,效果更好。  相似文献   

13.
在社交网络数据与抑郁症有关研究中往往需要采取人工方式标注抑郁症和非抑郁症用户,费时费力。通过高校大学生的微博社交数据的采集与分析,研究并提出了一种基于抑郁关键词与语义扩展的大学生疑似抑郁微博初步筛选算法——综合词法。该方法通过基础关键词表的构建和基于词嵌入学习模型WORD2VEC的语义扩展形成抑郁关键词表,最后利用该词表对被测微博进行语义相似度计算,进而识别其是否为疑似抑郁微博。在首都高校大学生微博数据集上的实验结果表明:综合词法在筛选准确率上优于SDS问卷分词法和专家词法;综合词法能够快速地从海量大学生微博中自动筛选占比非常少的疑似抑郁微博,减少专家标注工作量,提高标注效率,并可进一步为后续抑郁症患者精确识别(分类问题)提供良好的数据处理基础。  相似文献   

14.
邱先标  陈笑蓉 《计算机科学》2018,45(Z6):106-109, 139
计算文本的相似度是许多文本信息处理技术的基础。然而,常用的基于向量空间模型(VSM)的相似度计算方法存在着高维稀疏和语义敏感度较差等问题,因此相似度计算的效果 并不理想。在传统的LDA(Latent Dirichlet Allocation)模型的基础上,针对其需要人工确定主题数目的问题,提出了一种能通过模型自身迭代确定主题个数的自适应LDA(SA_LDA)模型。然后,将其引入文本的相似度计算中,在一定程度上解决了高维稀疏等问题。通过实验表明,该方法能自动确定模型主题的个数,并且利用该模型计算文本相似度时取得了比VSM模型更高的准确度。  相似文献   

15.
文献信息网络是典型的异构信息网络,基于其进行相似性搜索是图挖掘领域的一个研究热点。然而,现有的方法主要采用元路径或元结构的方式,并未考虑节点自身的语义特征,从而导致搜索结果出现偏差。对此,基于文献信息网络提出了一种基于向量的语义特征提取方法,并设计实现了基于向量的节点相似性计算方法VSim;此外,结合元路径设计了基于语义特征的相似性搜索算法VPSim;为提高算法的执行效率,针对文献网络数据的特点,设计了剪枝策略。通过在真实数据上的实验,验证了VSim对搜索语义特征相似实体的适用性,以及VPSim算法的有效性、高执行效率和高可扩展性。  相似文献   

16.
本体可以提供强大的知识表示方法,是信息检索领域中的重要内容。传统的本体概念相似度计算方法大多采用特定于描述语言的通用推理服务来进行匹配,这些方法忽略了概念的语义信息。通过设计一个基于OWL本体的语义检索模型,介绍了如何通过概念的属性以及层次关系来表达概念的语义,计算概念间的柔性相似度。实验结果表明,该方法能充分利用OWL属性特征与层次关系来计算相关概念之间的柔性相似度,可以根据需要动态地调节匹配范围,并给出其在文本分类中的应用。  相似文献   

17.
在信息检索,文本挖掘以及基于实例的机器翻译中,相似度计算都是一个关键问题.在实例机器翻译中,相似度计算一般是基于字符、词的匹配以及向量空间模型,但基于句子语义结构的相似度研究还不多见.借助了汉语框架语义网(Chinese FrameNet,简称CFN)的场景语义描述优势,提出了一种新的面向EBMT进行实例相似度计算的方...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号