共查询到18条相似文献,搜索用时 140 毫秒
1.
2.
词语语义相似度计算在很多自然语言处理相关领域都有着广泛应用.基于知网的现有词语语义相似度计算方法未深入考虑同棵义原层次树的义原距离、义原深度、义原密度及主次关系的影响,致使相似度计算结果并不够精确.针对该问题,提出一种词语语义相似度改进算法,通过分析知网中的义项表达式和义原层次树,用集合的加权平均值代替了义项相似度最大... 相似文献
3.
4.
5.
一种基于词义向量模型的词语语义相似度算法 总被引:1,自引:0,他引:1
针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题, 提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同, 在词义向量模型中多义词按不同词义被分成多个单义词, 每个向量分别与词语的一个词义唯一对应.我们首先借助同义词词林中先验的词义分类信息, 对语料库中不同上下文的多义词进行词义消歧; 然后基于词义消歧后的文本训练词义向量模型, 实现了现有词向量模型无法完成的精确词义表达; 最后对两个比较词进行词义分解和同义词扩展, 并基于词义向量模型和同义词词林综合计算词语之间的语义相似度.实验结果表明本文算法能够显著提升以上三类情况的语义相似度计算精度. 相似文献
6.
中文实体描述短文本具有词语稀疏、语义离散、用词随意等特点。本文分析《知网》义原网络和词语相似度的关系,提出了短文本间语义相似度部分和短文本分类部分相结合的实体描述短文本间相似度计算方法。语义相似度部分分析《知网》义原网络和词语间相似度的关系,在计算词语间相似度和短文本间相似度的过程中弱化了浅层《知网》义原影响并均衡了义原权重,使义原相似度计算结果更加合理。短文本分类部分将短文本分解为义原向量,根据特定领域短文本的义原分布情况进行短文本分类。两部分结合得到实体描述短文本间相似度。本文方法的有效性在百度知识图谱数据分析竞赛任务1的测试结果中得到了证明。 相似文献
7.
汉语词语的语义相似度计算是中文信息处理中的一个关键问题。该文提出了一种基于知网、面向语义、可扩展的相似度计算新方法,该方法从信息论的角度出发,定义了知网义原间的相似度计算公式,通过对未登录词进行概念切分和语义自动生成,解决了未登录词无法参与语义计算的难题,实现了任意词语在语义层面上的相似度计算。针对同义词词林的实验结果表明,该方法的准确率比现有方法高出近15个百分点。 相似文献
8.
国内利用知网计算中文词语相似度通常采用基于义原距离和深度的方法,计算结果依赖于公式的设计和参数的选取.针对词语相似度的计算,文章提出采用知网义原信息量来计算中文词语相似度,根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算义原信息量,从词语概念的主类义原信息量、义原及其角色关系的信息量及义原结点相似度三个方面来综合计算词语的相似度,与刘群和知网在线的方法进行比较,实验结果显示本文方法与人的判断更为接近. 相似文献
9.
词语相似度计算在基于实例的机器翻译、信息检索、自动问答系统等有着广泛的应用。词语相似度的计算一般都是在基于《知网》的义原的基础上,通过计算概念之间的相似度来获取。文中在综合考虑义原距离、义原深度、义原宽度、义原密度和义原重合度的基础上,利用多特征结合的方法计算词语相似度。为了验证算法的合理性,利用Miller和Charles文献给出的基准词作为测试集合,将计算得到的词语相似度的值与专家值进行比较,计算其皮尔逊相关系数,计算结果达到了0.852。实验结果表明多特征结合的词语相似度计算和专家评定的词语相似度计算非常吻合。 相似文献
10.
11.
提出一种基于知网与搜索引擎的词汇语义相似度计算方法。利用义原在层次体系树的深度、密度、信息量优化义原的相似性计算。将逐点共有信息(PMI)算法与归一化谷歌距离(NGD)算法结合优化基于搜索引擎的词汇语义相似度计算。将词汇的词性作为权重因子融合知网与搜索引擎的词汇相似度计算结果。实验结果表明,与基于知网和基于搜索引擎的语义相似度计算方法相比,所提出的方法在NLPCC测试集上的平均相似度更接近于测试集的评测标准,在汽车票务领域的词汇相似度计算中具有较好的应用效果。 相似文献
12.
汉语词语间语义相似是词语间的基本关系之一,文章提出了一种基于知网和知识图的词语语义相似度计算的方法,通过改进传统的知识图表示方式,根据知网中概念项的抽取结果对词语的义项进行表示,用词图的相似度来表示相应词语的语义相似度。实验结果表明该算法对词语间语义相似度计算是有效的。 相似文献
13.
知网与同义词词林的信息融合研究 总被引:6,自引:0,他引:6
本文主要探讨了将知网(HowNet) 和同义词词林进行信息融合的方法。我们针对知网对词的概念描述和同义词词林对词的语义分类的特点,提出了一种词典信息融合的方法:首先为词林的每个词集确定一个与知网中DEF 类似的概念描述,在此基础上对两部词典中同时收录且均只有一个义项的词语进行双向意义联结,最后根据分类算法对两部词典中同时收录非单一义项的词语进行双向意义联结。实验表明,本文提出的处理策略达到了93 %的信息融合正确率,融合后形成的新词典兼有词林的分类学信息和知网的概念描述信息。 相似文献
14.
词语相似度计算在文本分类、问答系统、机器翻译、文本聚类等有着广泛的应用。词语相似度计算的研究工作一般都是基于《知网》的义原的层面上,根据义原之间的距离和义原本身的层次深度,进行词语相似度的计算。基于以上研究,提出了一种新的改进的词语相似度算法,首先根据义项中各类义原的个数不同,提出了一种新的变系数义项相似度计算方法;其次从词性的角度,认为词语义项中的不同词性对词语相似度的贡献度不同,剔除不同词性义项之间的组合。实验结果证明,改进的算法结果在原有基础上得到较好的提升,大幅度降低了相似度计算的复杂度,提高了运算效率。 相似文献
15.
针对词义相似度计算问题,在《同义词词林》的基础上,从语言学角度分析了《词林》中词语间的组织关系,阐述了父结点深度对词义相似度的决定性作用。统计了各层结点及原子词群大小的分布情况。提出了仅使用父结点深度的计算模型和父结点深度与其分支信息相结合的计算模型。运用上述两种方法的词义相似度计算结果与Miller的人工标注值之间的皮尔逊相关系数达到0.854和0.857,根方误差达到1.003和0.991。 相似文献
16.
提出一种基于知网的汉语普通未登录词语义分析模型,该模型以概念图为知识表示方法,以2005版知网为语义知识资源,首先参照知网知识词典对普通未登录词进行分词;然后综合利用知网中的知识词典等知识,通过词性序列匹配消歧法、概念图相容性判定消歧法、概念图相容度计算消歧法及语义相似度计算消歧法对中文信息结构进行消歧;最后根据所选择的中文信息结构生成未登录词的概念图,从而实现未登录词的语义分析。该模型在语义分析过程中一方面确定了未登录词中每个已登录词的词义,另一方面构造了该未登录词的语义信息,实验结果证明它可以作为普通未登录词语义分析的原型系统。 相似文献
17.
杨泉 《计算机技术与发展》2021,(2)
语义相似度计算就是把词语间语言学上的信息映射为0到1之间的数值。基于知识本体的语义相似度计算方法,利用知识本体提供的信息,建立词语关系和语义相似度之间的函数关系,该方法可解释性强、使用简单,成为语义相似度计算的一类重要方法。提出了一种基于《同义词词林》的语义相似度计算模型,该模型运用遗传算法探索了《同义词词林》语义编码与语义相似度之间的内在联系,建立了更符合《同义词词林》中所蕴含的语义相似信息的函数关系式。该方法使用遗传算法搜索知识与语义相似度的函数表达式,克服了先验模型中函数形式及调节参数的局限性,所得计算结果与人工判定结果的皮尔逊相关系数为0.8645,为使用人工智能方法挖掘自然语言处理中的规律提供了一种新的思路和方法。 相似文献