首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 939 毫秒
1.
该文基于汉语框架网,利用框架核心依存图形式化地表示一个汉语句子,使得对句子能够进行深层语义理解。为了得到框架核心依存图,需要提取其中框架元素的语义核心词。该文较为系统地描述了框架元素的语义核心词的识别问题。我们利用条件随机场模型、最大熵模型和支持向量机模型来识别框架元素语义核心词,并分别对这三种不同的模型所选的特征集进行了分析,且通过构造不同的特征模板进行对比实验,选取其中较优的特征模板和模型。结果表明,条件随机场模型具有较好的识别性能,在对其特征模板做进一步改进的基础上,识别效率也得到一定的提高。其中对简单型和复合型短语类型框架元素语义核心词识别的平均正确率分别达到了97.34%和94.03%。  相似文献   

2.
目前,自然语言处理已经从句法、语法层面走向轻语义层面。对于汉语陈述句的处理,传统的方法是采用Lambek演算来进行处理。但是传统的Lambek演算无法处理汉语中的灵活语序问题,而现有的方法,如加入模态词、新连接词等,又因为其进一步使得本已是NP-hard的Lambek演算时间复杂度变大,并不适合当前的计算机处理。基于此,该文提出了λ-Lambek演算,即采用Lambek演算来对汉语陈述句进行句法演算,并通过Curry-Howard对应理论与λ-演算来对汉语陈述句进行轻语义模型的构建。λ-Lambek演算不仅能够对汉语陈述句进行轻语义演算,而且还能对汉语陈述句灵活语序进行处理。  相似文献   

3.
由于汉语框架网(CFN)的词元覆盖不全,使得CFN不能在大规模真实的文本中进行框架语义分析。框架语义学通过建立框架来解释词语的意义,框架与词语具有一定的语义相关性,而现有的方法在词元扩充任务中往往忽略了这种语义相关性。为此,提出一种融合框架表示的神经网络模型用于CFN词元扩充。利用双向LSTM对词语的词典释义和框架名进行建模,采用注意力机制得到与框架相关的词典释义表示;将框架语义表示和词典释义表示融合,从而得到词典中每个词的得分,输出得分高的词语。实验结果表明,该方法有效提高了CFN词元扩充的准确率,且优于基线模型。  相似文献   

4.
针对空间金字塔词袋模型缺少对局部特征之间语义分布关系的表达,提出了一种基于语义短语的空间金字塔词袋模型图像表示方法.首先,将局部特征映射为具有一定语义信息的视觉单词,通过统计局部特征邻域范围内其他相关特征点的语义分布情况来构造语义短语.其次,将语义短语采用稀疏编码进行量化生成语义词典,图像则表示成基于语义词典的空间金字塔式稀疏统计直方图向量.最后,将图像表示向量代入分类器中进行训练和测试.实验结果表明,本文方法能够较大幅度地提高图像分类的准确率.  相似文献   

5.
基于知识图的汉语词汇语义相似度计算   总被引:2,自引:1,他引:1  
提出了一种基于知识图的汉语词汇相似度计算方法,该方法以《知网》2005版为语义知识资源,以知识图为知识表示方法,在构造词图的基础上,以知网中的语义关系为依据对词汇概念中的义原进行分类,通过计算不同类型义原的相似度得到概念的相似度;为了对词汇相似度计算方法进行客观评价,设计了词汇相似度计算方法的量化评价模型;采用该模型对所提出的计算方法进行评价,试验结果证明此方法的有效度为89.1%。  相似文献   

6.
汉字词语的语义相似度计算是中文信息处理中的一个关键问题。文中利用网络搜索引擎提供的信息来计算汉语词对的语义相似性。首先通过程序访问搜索引擎,获取汉字词汇的搜索结果数,并依此实现了相似度计算模型WebPMI;然后描述了根据查询返回的文本片段进行语义相关性分析的模型CODC;最后,结合这个两个模型,给出了文中算法的伪代码。实验结果显示,文中的算法较好地利用了互联网信息,实现了一种较新的汉语词汇语义相似度计算方法,接近于利用词典提供的信息计算相似度的传统算法。  相似文献   

7.
汉语核心框架语义分析是从框架语义角度,通过抽取句子的核心框架,获取汉语句子的核心语义骨架。该文将核心框架语义分析分为核心目标词识别、框架选择和框架元素标注三个子任务,基于各个子任务的不同特点,采取最大熵模型分别对核心目标词识别与框架选择任务进行建模;采用序列标注模型条件随机场对框架元素标注任务进行建模。实验在汉语框架网资源的10 831条测试语料中显示,核心目标词识别和框架元素标注F值分别达到99.51%和59.01%,框架选择准确率达到84.73%。  相似文献   

8.
提出一种基于知网的汉语普通未登录词语义分析模型,该模型以概念图为知识表示方法,以2005版知网为语义知识资源,首先参照知网知识词典对普通未登录词进行分词;然后综合利用知网中的知识词典等知识,通过词性序列匹配消歧法、概念图相容性判定消歧法、概念图相容度计算消歧法及语义相似度计算消歧法对中文信息结构进行消歧;最后根据所选择的中文信息结构生成未登录词的概念图,从而实现未登录词的语义分析。该模型在语义分析过程中一方面确定了未登录词中每个已登录词的词义,另一方面构造了该未登录词的语义信息,实验结果证明它可以作为普通未登录词语义分析的原型系统。  相似文献   

9.
本系统从世界现象的组成和人类的记忆结构特点出发, 结合汉语的具体情况, 从意义分析的角度将汉语的词汇分为描述性的词、过程性的词、辅助性的词三类。这三类词分别描述了世界现象中的事实、事件以及语言本身所具有的特性。在此基础上形成了汉语的篇章理解所依赖的知识表示和知识组织形式, 即以事实一事件网络为基本结构的记忆模型通过这个模型建立了汉语篇章理解系统的知识库, 以及与之相应的加工和管理机制系统对汉语篇章的分析是以词为引导进行的。汉语的词直接对应于事实一事件网络中的节点和辅助词表中的词项这些节点和词项综合了语法的、语义的、语用的知识,并且能根据处理的需要及时地为分析过程提供预期本系统通过阅读, 对自己的知识库进行动态的自我管理。在阅读了有关七种鸟类的汉语故事之后, 系统能够学习到有关鸟类的一些新概念, 并能回答相应的问题。汉语篇章理解需要依赖各种知识。这些知识来自语法、语义和语用三个方面为了使计算机能够更好地处理汉语的篇章, 必须对各方面的知识进行合理的组织和管理。由于语言是人们用来描述世界现象, 传递信息的工具, 对于自然语言理解的研究工作有必要从意义分析的角度进行。意义分析就是找出语言是如何对世界现象进行模拟, 进而发现特定的言语活动所描述的有关世界现象特征及其相互关系的过程。本文从汉语的词与世界现象的对应关系出发, 就汉语理解系统的建造进行了初步尝试。  相似文献   

10.
汉语框架语义角色的自动标注   总被引:3,自引:0,他引:3  
基于山西大学自主开发的汉语框架语义知识库(CFN),将语义角色标注问题通过IOB策略转化为词序列标注问题,采用条件随机场模型,研究了汉语框架语义角色的自动标注.模型以词为基本标注单元,选择词、词性、词相对于目标词的位置、目标词及其组合为特征.针对每个特征设定若干可选的窗口,组合构成模型的各种特征模板,基于统计学中的正交表,给出一种较优模板选择方法.全部实验在选出的25个框架的6 692个例句的语料上进行.对每一个框架,分别按照其例句训练一个模型,同时进行语义角色的边界识别与分类,进行2-fold交叉验证.在给定句子中的目标词以及目标词所属的框架情况下,25个框架交叉验证的实验结果的准确率、召回率、F1-值分别达到74.16%,52.70%和61.62%.  相似文献   

11.
古汉语以单音节词为主,其一词多义现象十分突出,这为现代人理解古文含义带来了一定的挑战。为了更好地实现古汉语词义的分析和判别,该研究基于传统辞书和语料库反映的语言事实,设计了针对古汉语多义词的词义划分原则,并对常用古汉语单音节词进行词义级别的知识整理,据此对包含多义词的语料开展词义标注。现有的语料库包含3.87万条标注数据,规模超过117.6万字,丰富了古代汉语领域的语言资源。实验显示,基于该语料库和BERT语言模型,词义判别算法准确率达到80%左右。进一步地,该文以词义历时演变分析和义族归纳为案例,初步探索了语料库与词义消歧技术在语言本体研究和词典编撰等领域的应用。  相似文献   

12.
基于X结构的词义选择利用单词所在的X结构,并与词典的用法部分的X结构相比较,通过比较结构及结构中其它词的相似性来决定单词的含义,单词间的相似性利用WordNet来实现.这一方法只要较少的学习例子,可以避免传统的基于单词同现的方法中需要大量的语料库及数据稀少等问题。  相似文献   

13.
汉语词语边界自动划分的模型与算法   总被引:10,自引:1,他引:9  
在引入词形和汉字结合点等概念基础上,文中分别描述了一个基于字串构词能力的词形模型和一个基于词语内部、外部汉字结合度的汉字结合点模型,并采用线性插值方法 两种模型融合于一体进行汉词语边界划分。在分析汉语切分候选择空间的基础上,文中还给出了相应的优化搜索算法。与一般的统计方法相比,文中方法的参数可直接从未经加工粗语料中得到,具有较强的适应能力,初步试验表明该方法是有效和可靠的。  相似文献   

14.
文语转换系统中基于语料的汉语自动分词研究   总被引:9,自引:0,他引:9  
基于一个实际的文语转换系统,介绍了经的一些处理方法,采用了一种改进的最大匹配法,可以切分出所有的交集歧义,提出了一基于统计模型的算法来处理其中的多交集歧义的字段,并用穷举法和一睦简单的规则相结合的方法从实用角度解决多音字的异读问题以及中文姓名的自动识别方法,解决了汉语切分歧义、多音词处理、,中文姓名的自动识别问题,达到实现一文语转换的。  相似文献   

15.
基于向量空间模型的有导词义消歧   总被引:21,自引:1,他引:21  
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣。由于自然语言知识表示的困难,在手工规则的词义消歧难以达到理想效果的情况下,各种有导机器学习方法被应用于词义消歧任务中,借鉴前人的成果引入信息检索领域中空间模型文档词语权重计算技术来解决多义词义项的知识表示问题,并提出了上下文位置权重的计算方法,给出了一种基于向量空间模型的词义消岐有导机器学习方法。该方法将多义词的义项和上下文分别映射到向量空间中,通过计算多义词上下文向量与义项向量的距离,采用k-NN(k=1)方法来确定上下文向量的义项分类。在9个汉语高频多义词的开放和封闭测试中均取得了突出的成绩(封闭测试平均正确率为96.31%,开放测试平均正确率为92.98%),验证了该方法的有效性。  相似文献   

16.
基于义原同现频率的汉语词义排歧方法   总被引:19,自引:0,他引:19  
词义排岐是自然语言处理的重点和难点问题之一。基于语料库的统计方法已被广泛地应用于词义排岐,大多数的统计方法都受到数据稀疏的困扰,对于词义排岐而言,由于有大量同义词的存在,数据稀疏问题变得更为严重。充分利用“知网”这个知识源的特性,提出了一种基于义原同现频率的同义排岐方法,在很大程度上克服了数据稀疏问题。此外,该方法还避免了繁重的人工标注语料的过程,通过在一个约10万字的语料库上获得义原同现频率矩阵,并以此作为词义排岐的依据,实验表明,该方法对词义排岐具有较高的正确率。  相似文献   

17.
设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。  相似文献   

18.
二字词词义组合推理方法的研究   总被引:2,自引:1,他引:1  
汉字是表义文字,具有丰富的语义内容,汉字是一个有限的封闭集,它的数目是有限的,而汉语的词是一个开放系统,它是无限的。本文以“字义基元化、词义组合化”为基本思想,从字义着手,研究二字词词义组合。首先以经过整理的《现代汉语规范字典》、《现代汉语词典》和《同义词词林》为资源,从中自动搜索、抽取出二字词词义组合,建立汉字字义、词义知识库,然后再采用《同义词词林》的语义体系,通过语义相关度等的计算确定它们的组合类型,为研究二字词词义的组合提供一定的参考价值。  相似文献   

19.
针对传统的基于义原同现频率的汉语词义排歧方法存在“盲目性”的不足,本文根据《知网》中对概念定义的描述,分别计算多义词的每个义项与特征词的第一独立义原、其他独立义原、关系义原、符号义原之间的相关系数;最后通过比较多义词的每个义项与特征词之间的相关系数来决定多义词的义项。经过实验验证,该方法进一步提高了词义排歧的效果。  相似文献   

20.
词义标注语料库建设综述   总被引:3,自引:2,他引:1  
词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping策略在语料库建设方面的应用以及利用双语对齐语料库开展的相关研究。最后,针对词义标注语料库建设存在的问题提出自己的分析和思考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号