首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
目前,词语语义相似度计算结果与人工判别结果存在一定差距主要是因为基于知识本体的语义相似度计算一般都是从数学计算的角度直接利用语义分类词典,而没有从词汇学角度充分利用词典中的语言学知识。因而提出运用语义场理论分析《同义词词林》中词语间的组织关系,阐述深度对语义相似度的决定性作用及分支信息的辅助作用。并且在《词林》深度与分支信息相结合的基础上,提出Logistic函数计算模型。运用上述方法对MC30语义相似度的计算结果与人工标注值之间的皮尔逊相关系数达到0.9540;均方根误差为0.0191;对RG65语义相似度的计算结果与人工标注值之间的皮尔逊相关系数达到0.9434;均方根误差为0.0193。  相似文献   

2.
针对哈尔滨工业大学《同义词词林》扩展版的层次结构不能有效反映词语之间信息内容含量差异性的问题进行了研究,进行了《同义词词林》作为词语相似度计算本体的结构改造,增加了原编码信息结点的语义,提出了一种较为适合改造后本体的相似度计算策略,经实验证明,修改后的本体更能体现词语在本体中信息内容含量的差异性,提出的相似度计算策略应用在改进后的本体上时,得出的相似度计算结果准确程度达到了较高水平,具有较好的实用价值。  相似文献   

3.
设计了一种基于依存关系与同义词词林相结合的语义相似度计算方法。该方法通过依存关系分别提取两个文本的关系路径,同时基于同义词词林计算两个文本之间关系路径的语义相似度。在计算两个文本之间的语义相似度时,使用语言技术平台(language technology platform,LTP)对文本进行中文分词以及获取文本的依存关系图,从中提取关系路径,从而可以结合关系路径和同义词词林计算两个文本之间的语义相似度。通过实验,获得的平均偏差率为13.83%。实验结果表明,结合依存关系与同义词词林的语义相似度方法在准确率上相比较基于同义词词林的语义相似度和基于依存关系的语义相似度有了一定的提高。  相似文献   

4.
一种基于词义向量模型的词语语义相似度算法   总被引:1,自引:0,他引:1  
李小涛  游树娟  陈维 《自动化学报》2020,46(8):1654-1669
针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题, 提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同, 在词义向量模型中多义词按不同词义被分成多个单义词, 每个向量分别与词语的一个词义唯一对应.我们首先借助同义词词林中先验的词义分类信息, 对语料库中不同上下文的多义词进行词义消歧; 然后基于词义消歧后的文本训练词义向量模型, 实现了现有词向量模型无法完成的精确词义表达; 最后对两个比较词进行词义分解和同义词扩展, 并基于词义向量模型和同义词词林综合计算词语之间的语义相似度.实验结果表明本文算法能够显著提升以上三类情况的语义相似度计算精度.  相似文献   

5.
基于改进编辑距离和依存文法的汉语句子相似度计算   总被引:3,自引:0,他引:3  
句子相似度计算在中文自然语言处理领域有着广泛的应用背景。要准确地刻画一个句子所表达的意思,必须深入到语义层面级并结合语法结构信息,提出了一种基于改进编辑距离和依存文法的汉语句子相似度计算方法。依存文法考虑到句子内部的结构和词语之间的相互作用关系,而编辑距离由于《同义词词林》的应用可以兼顾同义词之间的替换,因此该方法与其他方法相比,描述句子的信息更加全面,试验结果表明该方法是有效的。  相似文献   

6.
该文提出了一种综合知网与同义词词林的词语语义相似度计算方法。知网部分根据义原层次结构的特征,采用了顶部平缓而底部陡峭的曲线单调递减的边权重策略,改进了现有的义原相似度算法;词林部分采用以词语距离为主要因素、分支节点数和分支间隔为微调节参数的方法,改进了现有的词林词语相似度算法。然后再根据词语的分布情况,采用综合考虑知网与同义词林的动态加权策略计算出最终的词语语义相似度。该方法充分利用了词语在知网与词林中的语义信息,极大地扩充了可计算词语的范围,同时也提高了词语相似度计算的准确率。  相似文献   

7.
提出了基于语义相似度判别用户评价倾向的方法。利用同义词词林计算词语的相似度,由词语的相似度构造二部图,通过求二部图的最大匹配获得文本之间的相似度。依据KNN分类来判断文本的倾向性。实验结果表明该方法优于传统的倾向性判断的方法。  相似文献   

8.
针对当前《知网》的词语语义描述与人们对词汇的主观认知之间存在诸多不匹配的问题,在充分利用丰富的网络知识的背景下,提出了一种融合《知网》和搜索引擎的词汇语义相似度计算方法。首先,考虑了词语与词语义原之间的包含关系,利用改进的概念相似度计算方法得到初步的词语语义相似度结果;然后,利用基于搜索引擎的相关性双重检测算法和点互信息法得出进一步的语义相似度结果;最后,设计了拟合函数并利用批量梯度下降法学习权值参数,融合前两步的相似度计算结果。实验结果表明,与单纯的基于《知网》和基于搜索引擎的改进方法相比,融合方法的斯皮尔曼系数和皮尔逊系数均提升了5%,同时提升了具体词语义描述与人们对词汇的主观认知之间的匹配度,验证了将网络知识背景融入到概念相似度计算方法中能有效提高中文词汇语义相似度的计算性能。  相似文献   

9.
同义词挖掘是自然语言处理领域中的一个基础任务,而同义词对的判别是该任务的一个重要部分。传统两大类方法,基于分布式表示和基于模板的方法,分别利用了语料的全局统计信息和局部统计信息,只能在精确率和召回率中权衡。随着预训练词向量技术的发展,基于分布式表示的方法存在一种简单高效的方案,即直接对预训练好的词向量计算相似度,将此表示为语义相似度。然而,这样的思路并没有利用到现有的同义词对这一外部知识。该文提出基于《同义词词林》的词向量微调方法,利用同义词对信息,增强预训练词向量的语义表示。经过实验,该微调方法能很好地完成同义词对的判别。  相似文献   

10.
汉语词语语义相似度计算研究   总被引:12,自引:0,他引:12       下载免费PDF全文
夏天 《计算机工程》2007,33(6):191-194
汉语词语的语义相似度计算是中文信息处理中的一个关键问题。该文提出了一种基于知网、面向语义、可扩展的相似度计算新方法,该方法从信息论的角度出发,定义了知网义原间的相似度计算公式,通过对未登录词进行概念切分和语义自动生成,解决了未登录词无法参与语义计算的难题,实现了任意词语在语义层面上的相似度计算。针对同义词词林的实验结果表明,该方法的准确率比现有方法高出近15个百分点。  相似文献   

11.
针对现有度量方法中考虑因素不够全面和因子权重计算依据经验确定的不足,提出粒子群优化BP神经网络(PSO-BP)的地理本体概念语义相似度度量模型。该模型利用本体属性、本体结构和语义关系的相似度,结合权重信息计算概念的综合相似度;同时,利用粒子群算法优化的BP神经网络获取因子权重,避免现有方法中因子权重确定的人为主观干扰。最后,从基础地理信息概念中提取出200组样本,用其中190组作为训练集,对神经网络模型进行训练,以获取权重;剩余10组作为测试集。将该模型和几种常用算法进行对比,通过分析测试集的各算法求解结果和专家判定结果之间的相关系数,结果表明该模型计算地理本体概念的相似度更为准确,符合人类认知特性,效果更好。  相似文献   

12.
概念间语义相似度研究是知识表示和信息检索领域中的一个重要内容,也是自然语言处理研究的重要组成部分,是人工智能领域中一个亟待解决的问题。本文在本体的基础上,对传统的相似度计算模型进行改进,提出一种基于贝叶斯网络的概率推理方法,改进概念间语义距离的计算,从而提高了语义相似度计算模型的效果;同时采用D-分离的方法,解决了在推理过中的计算复杂性。  相似文献   

13.
针对词义相似度计算问题,在《同义词词林》的基础上,从语言学角度分析了《词林》中词语间的组织关系,阐述了父结点深度对词义相似度的决定性作用。统计了各层结点及原子词群大小的分布情况。提出了仅使用父结点深度的计算模型和父结点深度与其分支信息相结合的计算模型。运用上述两种方法的词义相似度计算结果与Miller的人工标注值之间的皮尔逊相关系数达到0.854和0.857,根方误差达到1.003和0.991。  相似文献   

14.
本体语义相似度自适应综合加权算法研究   总被引:1,自引:0,他引:1  
郑志蕴  阮春阳  李伦  李钝 《计算机科学》2016,43(10):242-247
本体语义相似度计算是解决语义网中语义异构的关键环节。通过对传统语义相似度计算方法的分析研究,引入本体层次结构,给出基于信息内容、距离、属性的语义相似度改进计算方法,并采用主成分分析法,提出一种自适应相似度综合加权计算方法(ACWA),以解决传统综合加权计算时人工赋权的不足。实验结果表明,提出的ACWA算法的计算结果与参照标准之间的皮尔森系数较传统算法平均高出了8.1%,有效提升了本体语义相似度计算的准确性。  相似文献   

15.
领域本体的概念相似度计算   总被引:11,自引:1,他引:11  
随着本体在信息检索、人工智能等领域的广泛应用,面向本体的概念相似度计算成为了本体研究的一大热点。当前领域本体中概念相似度的研究主要是利用概念的上下位关系进行计算,但这并没有完整反映出概念的语义信息。论文提出的算法将概念相似度计算分为两层,一层是概念语义初始相似度层,其主要利用概念之间的距离来计算概念的初始相似度。另一层是概念非上下位关系相似度层,其在概念初始相似度的基础上,计算概念通过非上下位关系体现出的相似度。最后通过综合计算,得到领域本体中概念的实际相似度。实验证明,该方法充分利用了本体中概念的语义信息,得到的结果也比较合理。  相似文献   

16.
句子语义相似度的研究在自然语言处理等领域发挥着重要的作用。针对现有汉语句子相似度研究中存在的语义特征难以分析以及语序影响的问题,提出了一种基于DTW和匈牙利算法相结合的语义句子相似度处理模型。模型首先使用Word2vec深度学习模型训练百度新闻语料,得到200维的包含语义特征的词向量词典,并建立词向量空间,根据词向量组成的多维空间曲线,通过计算句子曲线之间相互转换的距离和复杂度来表示句子语义相似度,模型采用了DTW矩阵和改进的匈牙利算法,并对DTW矩阵做最短路径规划。实验结果表明,与现有的夹角余弦相似度等句子相似度计算方法相比,该方法在语序较乱但语义相近的情况下也能得到较为准确的相似度结果值。  相似文献   

17.
李晓  解辉  李立杰 《计算机科学》2017,44(9):256-260
word2vec利用深度学习的思想,可以从大规模的文本数据中自动学习数据的本质信息。因此,借助哈尔滨工业大学的LTP平台,设计利用word2vec模型将对句子的处理简化为向量空间中的向量运算,采用向量空间上的相似度表示句子语义上的相似度。此外,将句子的结构信息添加到句子相似度计算中,并就特殊句式对算法进行了改进,同时考虑到了词汇之间的句法关系。实验结果表明,该方法更准确地揭示了句子之间的语义关系,句法结构的提取和算法的改进解决了复杂句式的相似度计算问题,提高了相似度计算的准确率。  相似文献   

18.
针对VSM不能揭示文档中特征词间的潜在语义关系,相似度计算准确性较低的问题,结合本体模型的结构特点,从语义重合度、语义距离以及本体结构等因素综合考虑概念间的相似度计算,提出了一种基于领域本体的文档向量空间模型。该模型通过构建概念间的语义相似度矩阵对特征词权值进行调整,建立包含语义关系的标准(学生)答案的向量空间模型,并用"VSM模型+余弦值"算法评估学生答案和标准答案的相似度。实验表明,与传统方法相比,该方法提高了评测效果及准确率。  相似文献   

19.
针对边计算法的语义相似度计算优化算法   总被引:1,自引:0,他引:1  
概念语义相似度计算是诸多应用普遍面临的问题。文中以简化单本体内概念语义相似度计算为出发点,提出针对边计算法的相似度计算优化算法。利用本体概念间的层次关系优化相似度计算过程。优化算法依据本体内一对概念间的语义相似度求出本体内所有概念间的语义相似度。仿真实验表明,优化算法能有效降低语义相似度计算复杂度,计算速度提高约一倍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号