共查询到16条相似文献,搜索用时 78 毫秒
1.
中文词语语义相似度计算——基于《知网》2000 总被引:8,自引:2,他引:8
词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思想,提出了自己的观点: 认为知网中的“义原”对“概念”描述的作用大小取决于其本身所含的语义信息量;“义原”对“概念”的描述划分为直接描述和间接描述两类,并据此计算中文词语语义相似度,在一定程度上得到了和人的直观更加符合的结果。 相似文献
2.
3.
构建知网关系的网状表示 总被引:9,自引:2,他引:7
本文介绍了一个针对知网关系的网状表示结构及其实现方法。通过构建三张数据表:概念表、特征表和关系表,以及建立它们的记录项之间的双向多元联系,可以方便地把知网的所有知识(概念、特征以及它们之间的各种关系) 集成在一起,从而为进一步进行基于知网的信息检索和知识推理打下很好的基础。 相似文献
4.
基于知网的概念匹配细粒度化研究 总被引:2,自引:1,他引:1
基于知网的语义结构,构建了具有添加和删除特点的语义树,使概念的匹配粒度实现细化,并给出了概念语义树匹配算法。实验结果证明了算法的有效性,较好地解决"关键字障碍"和语义歧义性问题,提高查全率。 相似文献
5.
6.
基于语义依存关系的汉语语料库的构建 总被引:4,自引:1,他引:4
语料库是自然语言处理中用于知识获取的重要资源。本文以句子理解为出发点,讨论了在设计和建设一个基于语义依存关系的汉语大规模语料库过程中的几个基础问题,包括:标注体系的选择、标注关系集的确定,标注工具的设计,以及标注过程中的质量控制。该语料库设计规模100万词次,利用70个语义、句法依存关系,在已具有语义类标记的语料上进一步标注句子的语义结构。其突出特点在于将《知网》语义关系体系的研究成果和具体语言应用相结合,对实际语言环境中词与词之间的依存关系进行了有效的描述,它的建成将为句子理解或基于内容的信息检索等应用提供更强大的知识库支持。 相似文献
7.
针对当前基于《知网》的词汇语义相似度计算方法没有充分考虑知识库描述语言对概念描述的线性特征的情况,提出一种改进的词汇语义相似度计算方法。首先,充分考虑概念描述式中各义原之间的线性关系,提出一种位置相关的权重分配策略;然后,将所提出的策略结合二部图最大权匹配进行概念相似度计算。实验结果表明,采用改进方法得到的聚类结果F值较对比方法平均提高了5%,从而验证了改进方法的合理性和有效性。 相似文献
8.
汉语词语间语义相似是词语间的基本关系之一,文章提出了一种基于知网和知识图的词语语义相似度计算的方法,通过改进传统的知识图表示方式,根据知网中概念项的抽取结果对词语的义项进行表示,用词图的相似度来表示相应词语的语义相似度。实验结果表明该算法对词语间语义相似度计算是有效的。 相似文献
9.
一种改进的基于《知网》的词语语义相似度计算 总被引:18,自引:1,他引:18
中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如“美丽”与“贼眉鼠眼”的相似度为0.814 815,与“优雅”的相似度为0.788 360 ,“深红”与“粉红”的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果P值为99.07%,R值为99.11%。 相似文献
10.
语义级的自动查错一直是汉语文本自动校对技术的难点.针对汉语文本中的语义搭配错误,提出了一种基于<知网>义原搭配的有效的自动查错方法,主要包括语义知识库的构建和自动查错算法.语义知识库的构建分为两步:①根据规则从训练语料中统计出大量的动词与名词之间的二元搭配组合,并利用互信息等因素筛选记录;②利用<知网>对词语义项的义原描述(对于动词抽取其义项中的主义原,名词抽取其义项中的主义原和常见的4个辅助义原),将动词与名词的二元搭配组合转变为义原之间相互制约的多元组合.在语义知识库的基础上设计相应的自动查错算法.实验结果显示,该方法的召回率为35%,精确率为82.3%,具有较好的应用前景. 相似文献
11.
基于HowNet的词汇语义倾向计算 总被引:55,自引:8,他引:55
在互联网技术快速发展、网络信息爆炸的今天,通过计算机自动分析大规模文本中的态度倾向信息的技术,在企业商业智能系统、政府舆情分析等诸多领域有着广阔的应用空间和发展前景。同时,语义褒贬倾向研究也为文本分类、自动文摘、文本过滤等自然语言处理的研究提供了新的思路和手段。篇章语义倾向研究的基础工作是对词汇的褒贬倾向判别。本文基于HowNet,提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。实验表明,本文的方法在汉语常用词中的效果较好,词频加权后的判别准确率可达80%以上,具有一定的实用价值。 相似文献
12.
HowNet是一个大规模高质量的跨语言(中英)常识知识库,蕴含着丰富的语义信息。该文利用知识图谱领域的方法将HowNet复杂的结构层层拆解,得到了知识图谱形式的HownetGraph,进而利用网络表示学习以及知识表示学习方法得到了跨语言(中、英)、跨语义单位(字词、义项、DEF_CONCEPT和义原)的向量表示,在词语相似度(word similarity)和词语类比(word analogy)任务上对中英文数据集进行了实验,实验结果显示该文提出的方法在词语语义相似度的任务上取得了最好效果。 相似文献
13.
基于知网的中文问题自动分类 总被引:15,自引:1,他引:15
问答系统应能用准确、简洁的答案回答用户用自然语言提出的问题。问题分类是问答系统所要处理的第一步,分类结果的正确率直接影响后续工作的进行。本文提出了一种使用知网作为语义资源选取分类特征,并使用最大熵模型进行分类的新方法。该方法以问题的疑问词、句法结构、疑问意向词、疑问意向词在知网中的首义原作为分类特征。实验结果表明,在知网中选取的首义原能很好的表达问题焦点词的语义信息,可作为问题分类的一个主要特征。该方法能显著地提高问题分类的精度,大类和小类的分类精度分别达到了92.18%和83.86%。 相似文献
14.
一种基于词汇链的关键词抽取方法 总被引:26,自引:6,他引:26
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇链的算法。通过计算词义相似度首先构建词汇链,然后结合词频与区域特征进行关键词选择。该方法考虑了词汇之间的语义信息,能够改善关键词标引的性能。实验结果表明,与单纯的词频、区域方法相比,召回率提高了7.78%,准确率提高了9.33%。 相似文献
15.