共查询到18条相似文献,搜索用时 78 毫秒
1.
一种改进的基于《知网》的词语语义相似度计算 总被引:18,自引:1,他引:18
中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如“美丽”与“贼眉鼠眼”的相似度为0.814 815,与“优雅”的相似度为0.788 360 ,“深红”与“粉红”的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果P值为99.07%,R值为99.11%。 相似文献
2.
词语相似度计算中常用的一种方法是基于某种语义词典的计算。首先介绍《知网》中的基本概念和层次体系结构,借鉴刘群、李素建在词语相似度方面的基础理论,利用《知网》的义原层次体系结构计算出其中的义原相似度,再计算出概念的相似度,最后得到词语的相似度。还对其中的计算方法做出适当的改进调整,使其计算出的结果更加符合实际情况。 相似文献
3.
提出了一种简单有效的词语语义相似度的计算方法,该方法利用《知网》中提取的1500多个义原,首先定义义原的距离,考虑到义原的深度、密度及参数对相似度的影响因素,定义了词语相似度。通过实例分析,该方法是行之有效地。 相似文献
4.
词语语义相似度计算在很多自然语言处理相关领域都有着广泛应用.基于知网的现有词语语义相似度计算方法未深入考虑同棵义原层次树的义原距离、义原深度、义原密度及主次关系的影响,致使相似度计算结果并不够精确.针对该问题,提出一种词语语义相似度改进算法,通过分析知网中的义项表达式和义原层次树,用集合的加权平均值代替了义项相似度最大... 相似文献
5.
6.
7.
汉语词语的语义相似度计算是中文信息处理中的一个关键问题。该文提出了一种基于知网、面向语义、可扩展的相似度计算新方法,该方法从信息论的角度出发,定义了知网义原间的相似度计算公式,通过对未登录词进行概念切分和语义自动生成,解决了未登录词无法参与语义计算的难题,实现了任意词语在语义层面上的相似度计算。针对同义词词林的实验结果表明,该方法的准确率比现有方法高出近15个百分点。 相似文献
8.
《计算机应用与软件》2013,(7)
在中文信息处理中,词语相似度计算是一项基础而又核心的研究课题。基于《知网》的描述语言结构,改进了现有词语相似度计算方法。该方法考虑了词语的词性在相似度计算中的作用,同时对词语的第一义原作比对,减少了抽象义原的决定作用,改进了其他义原描述式的相似度计算方法,减少了搜索时间。实验证明,该方法提高了计算效率和计算结果的准确率,使词语相似度计算结果比较合理。 相似文献
9.
针对当前基于《知网》的词汇语义相似度计算方法没有充分考虑知识库描述语言对概念描述的线性特征的情况,提出一种改进的词汇语义相似度计算方法。首先,充分考虑概念描述式中各义原之间的线性关系,提出一种位置相关的权重分配策略;然后,将所提出的策略结合二部图最大权匹配进行概念相似度计算。实验结果表明,采用改进方法得到的聚类结果F值较对比方法平均提高了5%,从而验证了改进方法的合理性和有效性。 相似文献
10.
提出一种基于知网与搜索引擎的词汇语义相似度计算方法。利用义原在层次体系树的深度、密度、信息量优化义原的相似性计算。将逐点共有信息(PMI)算法与归一化谷歌距离(NGD)算法结合优化基于搜索引擎的词汇语义相似度计算。将词汇的词性作为权重因子融合知网与搜索引擎的词汇相似度计算结果。实验结果表明,与基于知网和基于搜索引擎的语义相似度计算方法相比,所提出的方法在NLPCC测试集上的平均相似度更接近于测试集的评测标准,在汽车票务领域的词汇相似度计算中具有较好的应用效果。 相似文献
11.
12.
13.
基于贝叶斯估计的概念语义相似度算法 总被引:2,自引:0,他引:2
传统的基于语义距离的概念语义相似度算法不能兼顾客观统计数据,基于信息量的相似度算法又难以获得权威统计样本,针对这些不足,该文提出一种基于贝叶斯估计的概念语义相似度算法。该算法首先假定概念出现概率是符合Beta分布的随机变量,然后基于语义距离的相似度算法计算先验参数,并根据统计样本计算该先验分布下基于最小风险的贝叶斯估计后验参数。随后利用基于信息量的语义相似度算法,便可获得主观经验与客观事实相结合的概念语义相似度。结合WordNet的实验分析表明,该算法与人为主观经验之间具有最大的相关系数。 相似文献
14.
15.
该文运用自然语言处理的概念层次网络(Hierarchical Network of Concepts,HNC)理论提出了一种词语相似度计算方法。该方法利用HNC理论词汇层面联想的概念表述体系,根据HNC映射符号的编码规则和符号映射理论,综合概念内涵、概念外部特征、概念类别和组合符号来计算词语的相似度,并与基于知网的词语相似度算法和人工的主观判断的相似度进行了比较分析。实验结果表明,该方法能够较好地反映词语之间的语义差别,与人的直观判断基本一致,是一种有效可行的方法。 相似文献
16.
根据各分布信息源信息单元实体类的语义相似度,对于信息单元实体类进行聚类,是半自动地进行本体映射、构建分布异构信息资源全局视图的重要步骤。本文面向分布信息资源统一信息视图构建需求,利用基于本体的元数据模型及语义相似度,在其基础上定义了语义聚类特征,基于语义聚类特征设计了一种基于语义特征树的混合层次聚类算法SCFBHCA。从理论和实验两个角度对SCFBHCA算法进行了分析,对比HCA和HCP,该算法具有增量式和扩展性且效率更高。 相似文献
17.