共查询到20条相似文献,搜索用时 31 毫秒
1.
基于证据理论的单词语义相似度度量 总被引:1,自引:0,他引:1
单词语义相似度度量一直是自然语言处理领域的经典和热点问题, 其成果可对词义消歧、机器翻译、本体映射、计算语言学等应用具有重要影响. 本文通过结合证据理论和知识库,提出一个新颖的度量单词语义相似度度量途径. 首先,借助通用本体WordNet获取证据;其次,利用散点图分析证据的合理性; 然后,使用统计和分段线性插值生成基本信任分配函数;最后,结合证据冲突处理、 重要度分配和D-S合成规则实现信息融合获得全局基本信任分配函数, 并在此基础上量化单词语义相似度.在数据集RG(65)上, 对比本文算法评判结果与人类评判结果的相关度,采用5折交叉验证对算法进行分析, 相关度达到0.912,比当前最优方法PS高出0.4个百分点, 比经典算法reLHS、distJC、simLC、simL和simR高出7%~13%; 在数据集MC(30)和WordSim353上也取得了比较好的实验结果, 相关度分别为0.915和0.941;且算法的运行效率和经典算法相当. 实验结果显示使用证据理论解决单词语义相似度问题是合理有效的. 相似文献
2.
基于本体的语义相似度和相关度计算研究综述 总被引:2,自引:2,他引:0
语义相似度和相关度计算广泛应用于自然语言处理中,已有大量语义相似度和相关度算法被提出。分析总结了树和图结构中影响概念相似度或相关度的因素,综述了基于本体的英文语义相似度和相关度计算方法,明确了语义相似度和相关度的区别与联系,系统地对算法进行了分类,最后对每类算法进行了详细的比较。 相似文献
3.
《计算机应用与软件》2016,(10)
在基于距离的语义相似度计算方法的基础上,综合多种因素对相似度的影响,提出一种新的相似度和相关度计算方法。将其应用到教学资源领域本体,计算本体概念间的相似度和相关度。实验结果显示该算法可以提高传统基于距离的相似度算法的性能。最后比较了利用该算法的语义查询与传统关键字查询的结果。 相似文献
4.
基于维基百科社区挖掘的词语语义相似度计算 总被引:1,自引:0,他引:1
词语语义相似度计算在自然语言处理如词义消歧、语义信息检索、文本自动分类中有着广泛的应用。不同于传统的方法,提出的是一种基于维基百科社区挖掘的词语语义相似度计算方法。本方法不考虑单词页面文本内容,而是利用维基百科庞大的带有类别标签的单词页面网信息,将基于主题的社区发现算法HITS应用到该页面网,获取单词页面的社区。在获取社区的基础上,从3个方面来考虑两个单词间的语义相似度:(1)单词页面语义关系;(2)单词页面社区语义关系;(3)单词页面社区所属类别的语义关系。最后,在标准数据集WordSimilarity-353上的实验结果显示,该算法具有可行性且略优于目前的一些经典算法;在最好的情况下,其Spearman相关系数达到0.58。 相似文献
5.
针对为检索服务的语义知识库存在的内容不全面和不准确的问题,提出一种基于维基百科的软件工程领域概念语义知识库的构建方法;首先,以SWEBOK V3概念为标准,从维基百科提取概念的解释文本,并抽取其关键词表示概念的语义;其次,通过概念在维基百科中的层次关系、概念与其它概念解释文本关键词之间的链接关系、不同概念解释文本关键词之间的链接关系构建概念语义知识库;接着, LDA主题模型分别和TF-IDF算法、TextRank算法相结合的两种方法抽取关键词;最后,对构建好的概念语义知识库用随机游走算法计算概念间的语义相似度;将实验结果与人工标注结果对比发现,本方法构建的语义知识库语义相似度准确率能够达到84%以上;充分验证了所提方法的有效性。 相似文献
6.
基于子树匹配的文本相似度算法 总被引:1,自引:0,他引:1
为降低文本向量维度,提高文本间语义相似度度量性能,综合利用统计方法与语义词典的优势,提出一种文本相似度算法.基于文本生成元数据特征向量,减少向量空间维度,设计基于子树匹配的文本相似度算法,借助子树加速对文本相似度的计算,并通过将文本元数据特征向量与子树进行相似度语义匹配,提高文本相似度计算时语义相似度度量的准确性.该算法考虑到对元数据中同义词的语义理解,加强文本之间相似度度量时的语义覆盖能力.实验结果表明文中所提出的方法是可行和有效的. 相似文献
7.
《计算机应用与软件》2013,(5)
针对用户个人兴趣度偏好、本体有效信息利用不足、本体自适应学习能力差和基于单一策略的语义相似度搜索效率低等问题,提出一种基于兴趣度和本体自适应学习的语义搜索算法。在该算法中,首先利用本体信息共享含量和信息贴近均衡路径策略来进行本体语义相似度加权度量,并对用户的兴趣度进行偏好计算,然后利用本体评价模型,依据用户个性化偏好进行本体自适应学习,从而提高本体知识库的信息共享度。实验证明,该算法具有较高的查全率和查准率。 相似文献
8.
9.
10.
基于贝叶斯估计的概念语义相似度算法 总被引:2,自引:0,他引:2
传统的基于语义距离的概念语义相似度算法不能兼顾客观统计数据,基于信息量的相似度算法又难以获得权威统计样本,针对这些不足,该文提出一种基于贝叶斯估计的概念语义相似度算法。该算法首先假定概念出现概率是符合Beta分布的随机变量,然后基于语义距离的相似度算法计算先验参数,并根据统计样本计算该先验分布下基于最小风险的贝叶斯估计后验参数。随后利用基于信息量的语义相似度算法,便可获得主观经验与客观事实相结合的概念语义相似度。结合WordNet的实验分析表明,该算法与人为主观经验之间具有最大的相关系数。 相似文献
11.
12.
针对某航天企业装配工艺知识数量巨大而繁杂的特点,梳理该航天产品装配工艺知识,建立装配工艺知识体系。研究基于本体的装配工艺知识建模方法,建立装配工艺知识本体模型,并应用OWL本体形式化语言对装配工艺知识进行本体编码。基于装配工艺知识本体模型,设计装配工艺知识语义相似度算法,该算法综合基于距离的语义相似度和基于属性的语义相似度计算领域本体内部概念间的语义相似度。最后,将所研究的装配工艺知识模型和语义相似度算法应用于某航天产品装配工艺知识库系统,实现了某型号产品的装配工艺知识有序管理和共享重用。 相似文献
13.
14.
改进的概念语义相似度计算 总被引:2,自引:0,他引:2
在相似度计算中,本体能够将各种概念及相互关系明确地,形式化地表达,因而发挥着重要的作用.为了使相似度计算结果更为精确,考虑更全面的利用本体中的关系,和相似度计算在特定领域中应用的特点,提出一个改进的相似度计算模型.利用上下位关系计算相似度,非上下位关系计算相关度,将二者合成,并同时考虑语义检索领域中,相似度计算的不对称性.经过实验验证了该方法有效且精确. 相似文献
15.
16.
语义相似度是语义网络和信息检索领域的重要内容.本体结构为语义相似度计算提供了新的思路,但现有的方法都存在着不同程度的缺陷.为了提高已有方法的有效性,在分析语义相似度经典方法的基础上,充分利用本体的结构信息,综合考虑概念在本体图中的位置、语义距离,共享属性量和共享信息等因素,提出了一个基于本体结构的语义相似度算法.实验部分以维基百科中公开发布的氨基酸本体为例,通过与经典方法计算结果的对比,证明了算法的有效性. 相似文献
17.
基于概率信息内容的FCA概念相似度计算方法依赖于语料库中概念的频次信息,这种方法仅使用出现概率作为信息内容度量指标计算FCA概念相似度,其计算结果的准确率不高.针对上述问题提出一种基于语义信息内容的FCA概念相似度计算方法,该方法利用本体中概念间的上下位语义关系度量信息内容,以进一步提高概念一般/具体程度的度量精度;然后在本体派生的ISA层次结构上计算语义信息内容相似度,从而避免基于概率信息内容的方法对语料库的依赖;最后把语义信息内容相似度作为度量FCA概念相似度的依据,并给出了通过构造带权二部图提高相似度计算效率的方法.实验结果表明使用基于语义信息内容的方法能够在不牺牲时间性能的前提下有效提高FCA概念相似度计算结果的准确率. 相似文献
18.
提出了一种词汇和本体概念间的语义相似度计算方法。该方法利用编辑距离和维基百科从语法和语义两方面综合考虑词汇和概念间的语义相似度。在领域本体的指导下,将方法应用于语义标注过程,建立词汇与本体概念之间的映射。在标注过程中建立知识库,提高算法性能,实验结果说明该方法是行之有效的。 相似文献
19.
针对大规模考试管理中存在相似试卷识别的困难,提出一种试卷相似度自动评估算法。参考现有知网词汇语义相似度计算方法,结合试卷相似度计算领域特点,改进词汇语义相似度计算方法,提出试题相似度和试卷相似度计算模型,实现对试卷相似度的自动评估,提高了大规模考试管理的工作效率。通过抽取各专业部分试卷进行相似度自动评估测试,测试结果与人工评估结果基本一致,达到预期目标。 相似文献
20.
针对大规模考试管理中存在相似试卷识别的困难,提出一种试卷相似度自动评估算法.参考现有知网词汇语义相似度计算方法,结合试卷相似度计算领域特点,改进词汇语义相似度计算方法,提出试题相似度和试卷相似度计算模型,实现对试卷相似度的自动评估,提高了大规模考试管理的工作效率.通过抽取各专业部分试卷进行相似度自动评估测试,测试结果与人工评估结果基本一致,达到预期目标. 相似文献