首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
语义知识库是自然语言处理的基础性工程,但现阶段语义知识库的构建,大部分工作基于人工.基于英语框架网络FrameNet,采用FrameNet的现有框架库作为汉语框架网络的框架库,通过FrameNet中现有标注英文例句训练一语义角色标注器,利用英汉双语平行语料,对英文语料进行语义角色标注并将其映射到中文句子上,从标注好的汉语句子中提取汉语词元和例句填充汉语框架,构建汉语词汇库和例句库,从而实现汉语语义框架网络的自动构造.  相似文献   

2.
在此前的汉语未登录词语义预测中,构词相关的知识一直被当做预测的手段,而没有被视为一种有价值的知识表示方式,该文在“语素概念”基础上,深入考察汉语的语义构词知识,给出未登录词的“多层面”的词义知识表示方案。针对该方案,该文采用贝叶斯网络方法,构建面向汉语未登录词的自动语义构词分析模型,该模型能有效预测未登录词的“多层面”的词义知识。这种词义知识表示简单、直观、易于拓展,实验表明对汉语未登录词的语义预测具有重要的价值,可以满足不同层次的应用需求。  相似文献   

3.
汉语核心框架语义分析是从框架语义角度,通过抽取句子的核心框架,获取汉语句子的核心语义骨架。该文将核心框架语义分析分为核心目标词识别、框架选择和框架元素标注三个子任务,基于各个子任务的不同特点,采取最大熵模型分别对核心目标词识别与框架选择任务进行建模;采用序列标注模型条件随机场对框架元素标注任务进行建模。实验在汉语框架网资源的10 831条测试语料中显示,核心目标词识别和框架元素标注F值分别达到99.51%和59.01%,框架选择准确率达到84.73%。  相似文献   

4.
基于框架语义分析的汉语句子相似度计算   总被引:4,自引:0,他引:4  
句子相似度计算在自然语言处理的许多领域中发挥着重要作用.已有的汉语句子相似度计算方法由于考虑句子的语义不全面,使得相似度计算结果不够准确,为此提出一种新的汉语句子相似度计算方法.该方法基于汉语框架网语义资源,通过多框架语义分析、框架的重要度度量、框架的相似匹配、框架间相似度计算等关键步骤来实现句子语义的相似度量.其中多框架语义分析是从框架角度对句子中的所有目标词进行识别、框架选择及框架元素标注,从而达到全面刻画句子语义的目的;在此基础上根据句子中框架的语义覆盖范围对不同框架的重要度进行区分,能够使得相似度结果更准确.在包含多目标词的句子集上的实验结果显示,基于多框架语义分析的句子相似度计算方法相对传统方法获得了更好的测试结果.  相似文献   

5.
汉语框架语义角色的自动标注   总被引:3,自引:0,他引:3  
基于山西大学自主开发的汉语框架语义知识库(CFN),将语义角色标注问题通过IOB策略转化为词序列标注问题,采用条件随机场模型,研究了汉语框架语义角色的自动标注.模型以词为基本标注单元,选择词、词性、词相对于目标词的位置、目标词及其组合为特征.针对每个特征设定若干可选的窗口,组合构成模型的各种特征模板,基于统计学中的正交表,给出一种较优模板选择方法.全部实验在选出的25个框架的6 692个例句的语料上进行.对每一个框架,分别按照其例句训练一个模型,同时进行语义角色的边界识别与分类,进行2-fold交叉验证.在给定句子中的目标词以及目标词所属的框架情况下,25个框架交叉验证的实验结果的准确率、召回率、F1-值分别达到74.16%,52.70%和61.62%.  相似文献   

6.
该文使用同义词词林语义资源库,以词林中编码信息为基础构建新的特征,使用条件随机场模型,研究了汉语框架语义角色的自动标注。该文在先前的基于词、词性、位置、目标词特征的基础上,在模型中加入不同的词林信息特征,以山西大学的汉语框架语义知识库为实验语料,研究了各词林信息特征分别对语义角色边界识别与分类的影响。实验结果表明,词林信息特征可以显著提高语义角色标注的性能,并且主要作用在语义角色分类上。  相似文献   

7.
义类自动标注方法的研究   总被引:3,自引:1,他引:2  
句法分析不能满足汉语分析的需要,句法和语义相结合的分析方法适用于汉语分析。分析的基础要有一部语法语义词典。目前的机读词典多是语法词典,因而需要在语法词典中加入词的语义信息。《同义词词林》是一部较好的义类词典,但没有语法信息,可以《同义词词林》的分类体系对语法词典进行义类标注,得到语法语义词典。这一过程中有不一致的情况,特别地,对《同义词词林》中未收录的词就不能直接标注义类。本文采用《同义词词林》的分类体系,研究设计了一个汉语词自动义类标注算法,对北大《现代汉语语法信息词典》进行自动义类标注。实验结果较为满意,得到91%的准确率。  相似文献   

8.
提出一种基于知网的汉语普通未登录词语义分析模型,该模型以概念图为知识表示方法,以2005版知网为语义知识资源,首先参照知网知识词典对普通未登录词进行分词;然后综合利用知网中的知识词典等知识,通过词性序列匹配消歧法、概念图相容性判定消歧法、概念图相容度计算消歧法及语义相似度计算消歧法对中文信息结构进行消歧;最后根据所选择的中文信息结构生成未登录词的概念图,从而实现未登录词的语义分析。该模型在语义分析过程中一方面确定了未登录词中每个已登录词的词义,另一方面构造了该未登录词的语义信息,实验结果证明它可以作为普通未登录词语义分析的原型系统。  相似文献   

9.
一种基于词矢量的汉语语义量化模型   总被引:6,自引:0,他引:6  
通过建立基于词矢量的汉语语义量化模型来解决语义信息的自动获取及量化问题,描述了模型的建立方法及其在汉语词义排歧中的应用,最后通过构造伪词的方法对模型的语义辨识能力进行了评测。实验表明该语义量化模型具有很好的语义表示能力,并且由于模型的建立是通过对大规模生语料库的统计来完成的,避免了人工对词语语义进行量化时所需的庞大工作量,从而可以运用于许多与语义相关的自然语言处理任务中。  相似文献   

10.
基于语义分析的词汇倾向识别研究   总被引:2,自引:0,他引:2  
随着互联网的安全发展和人们对信息需求的日益增强,文本倾向识别方向的研究在许多领域有着广阔的发展前景.作为文本语义倾向识别的研究基础,本文侧重于词汇的语义倾向性判别,利用《知网》中对汉语词汇的定义和描述,建立由褒贬倾向较强烈的词汇组成的种子集,并结合上下文环境因素的影响,采用一种度量方法获取种子词与普通词之间的语义倾向相似度,识别普通词的褒贬倾向.实验表明,本文方法对常用词的倾向识别效果较好,可为更大粒度的文本倾向识别打好基础,具有一定的实用价值.  相似文献   

11.
语义相关度计算在信息检索、词义消歧、自动文摘、拼写校正等自然语言处理中均扮演着重要的角色。该文采用基于维基百科的显性语义分析方法计算汉语词语之间的语义相关度。基于中文维基百科,将词表示为带权重的概念向量,进而将词之间相关度的计算转化为相应的概念向量的比较。进一步,引入页面的先验概率,利用维基百科页面之间的链接信息对概念向量各分量的值进行修正。实验结果表明,使用该方法计算汉语语义相关度,与人工标注标准的斯皮尔曼等级相关系数可以达到0.52,显著改善了相关度计算的结果。  相似文献   

12.
汉语词语语义相似度计算,在中文信息处理的多种应用中扮演至关重要的角色。基于汉语字本位的思想,我们采用词类、构词结构、语素义等汉语语义构词知识,以“语素概念”为基础,计算汉语词语语义相似度。这种词义知识表示简单、直观、易于拓展,计算模型简洁、易懂,采用了尽可能少的特征和参数。实验表明,该文方法在典型“取样词对”上的表现突出,其数值更符合人类的感性认知,且在全局数据上也表现出了合理的分布规律。  相似文献   

13.
语义检索系统中的查询语句扩展算法改进   总被引:1,自引:1,他引:0  
查询扩展技术是在原有用户查询的基础上加入语义相关的新词,组成语义更准确的查询条件.文中对查询扩展算法中扩展词加权方法进行改进,提出一种基于初始用户查询意欲和词与词间语义关联性给扩展词加权的方法.根据此算法得到的扩展词权值不仅反映了该扩展词和原关键词间的关联性,还反映出该扩展词和查询关键词集合中所有元素的关联性.因此,可将基于语义树的查询扩展问题转换为扩展词权值wiis,o,p的计算,如何计算出权值wijs,o,p是文中的核心.实验证明,该算法提高了检索的查准率.  相似文献   

14.
针对汉语文本语义搭配错误,在对《现代汉语语义信息词典》(以下简称《语义词典》)及《知网》相关属性的研究基础上,提出了基于多知识源的语义搭配知识库的构建方法,并设计出了面向汉语文本语义查错的三层语义搭配知识库结构.在此基础上,设计并实现了一个汉语文本自动查错算法.实验结果表明,基于上述方法所设计的语义搭配知识库,可以大大提高汉语文本语义查错算法错误查找的召回率,对于语义查错的研究具有一定的借鉴作用.  相似文献   

15.
语义角色标注是浅层语义分析的一种实现方式。目前汉语框架语义角色自动标注一般被看作以词为基本标注单元的序列标注问题,而已有研究中仅在词、词性层面来选取特征,标注结果并不理想。该文利用树条件随机场模型,通过在词、词性层面特征的基础上依次加入不同类型的依存特征,研究依存特征对汉语框架语义角色标注的影响。实验设置了8类,共24种特征模板,结果显示,加入依序特征的最优模版使标注结果的F值提高近3%,特别是对较长框架语义角色的标注结果有较好的改善。  相似文献   

16.
目前信息检索的正确率不太高,原因之一是用现有的检索模型难以表示完整的用户查询意图,而用户在查询中大量使用了复合结构.通过实例探索了汉语NN型复合结构基于概念图的语义关系标引,发现复合结构的关联语义关系可以通过子成分的上下文求解.这些上下文通过网络进行识别抽取,并借助<同义词词林>进行泛化以解决数据稀疏性问题.复合结构内部的语义关系用向量来表示,向量的每一维代表了能表示复合结构语义关系的一个上下文.实验表明,提出的方法取得了较好的结果.  相似文献   

17.
在信息检索,文本挖掘以及基于实例的机器翻译中,相似度计算都是一个关键问题.在实例机器翻译中,相似度计算一般是基于字符、词的匹配以及向量空间模型,但基于句子语义结构的相似度研究还不多见.借助了汉语框架语义网(Chinese FrameNet,简称CFN)的场景语义描述优势,提出了一种新的面向EBMT进行实例相似度计算的方...  相似文献   

18.
篇章关系识别是篇章分析中一项具有挑战性的子任务。传统的篇章关系分析主要是用篇章的局部特征对篇章关系进行分析,但是局部特征无法直接诠释篇章单元的外部语义关系,因此该文基于汉语框架语义网识别篇章关系,在框架语义层面对篇章单元进行分析。该文主要利用汉语框架语义网中的目标词,对篇章单元进行分析,从而识别出篇章关系。实验结果表明,核心目标词能更完整地表达篇章单元的核心语义,对篇章关系的识别有较好的效果。  相似文献   

19.
把词素作为基本资源,从语义上寻找他们组合成词的规律,可以辅助自然语言理解。该文首先参照《现代汉语词典》和知网标注了二字词的词素意义,继而从意合结构、意根分布、意指方式、意变类型四个角度标注了词素间的词化意义,最后综合词素意义和词化意义,在定量统计的基础上建立了一个二字词的语义描写体系。通过对论坛及《现代汉语词典》的新词进行实验,我们发现二字词的语义构词研究在普通未登录词的理解中具有一定的应用价值。
  相似文献   

20.
句子语义相似度的研究在自然语言处理等领域发挥着重要的作用。针对现有汉语句子相似度研究中存在的语义特征难以分析以及语序影响的问题,提出了一种基于DTW和匈牙利算法相结合的语义句子相似度处理模型。模型首先使用Word2vec深度学习模型训练百度新闻语料,得到200维的包含语义特征的词向量词典,并建立词向量空间,根据词向量组成的多维空间曲线,通过计算句子曲线之间相互转换的距离和复杂度来表示句子语义相似度,模型采用了DTW矩阵和改进的匈牙利算法,并对DTW矩阵做最短路径规划。实验结果表明,与现有的夹角余弦相似度等句子相似度计算方法相比,该方法在语序较乱但语义相近的情况下也能得到较为准确的相似度结果值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号