首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
该文吸收已有动词研究的相关成果,提出了动词语义词典开发的相关原则和研制思路,界定并描写了词典中所涉及的相关属性信息,并对词典的总体文件结构及其各个库的信息进行了描写和说明。最终开发了融合词汇语义和句法语义,涵盖词形、词性、释义、义类、义场、句法范畴信息、语义范畴信息、语义句模等多种信息参数的开放性的动词语义知识词典。该词典可以在歧义分化、词义关系考察、句法—语义接口、句模抽取等方面提供支持。  相似文献   

2.
现代藏语动词的句法语义分类及相关语法句式   总被引:1,自引:3,他引:1  
本文突破了传统藏文文法关于动词分类的简单描述,建立起以句法语义为纲要的动词类别和相关句法规则。本文区分了藏语12大类动词,各类动词都有不同论元数量和不同句法性质的要求。因此,动词的句法语义类别划分能够较细致和全面反映各种类型藏语句式的语法结构框架,包括句子的语序、词格标记和句法助词。动词的句法语义分类结果可以直接应用于藏语语法信息词典的构建,是藏语计算处理的重要基础。  相似文献   

3.
蒙古语语义信息词典(SIKM)作为一部知识库已成为整个蒙古语语言资源的组成部分。自2009年至今,词典的研发取得了阶段性进展。SIKM现已收录5.7万多条记录,涵盖4个词典库。其中包含全部词语的1个“总库”,名词、形容词、动词等3个词类各建一个数据库。每个数据库文件都详细刻画了各词类词语及其语义属性的二维关系。目前已完成5.7万多条词语的语义分类和属性描述,该分类体系和词典的一些属性信息初步被应用到蒙古文信息处理相关基础研究和开发之中。介绍词典规模及结构,语义分类体系、属性字段描述以及研制过程中遇到的一些难点,词典的初步应用情况等内容。  相似文献   

4.
词类标注问题历来受到中文信息处理、汉语语法和词汇学界的共同关注,学者们已提出多种词类标记体系,彼此间存在较大差异,但迄今尚无人对大规模词类标注工程进行系统比较。该文以《现代汉语词典》第5版和《现代汉语语法信息词典》两个大型词典词类标注工程为比较对象,基于所提出的词类对应算法,自动找出两部词典词类标注上的差异,进而对形成差异的原因进行分析。分析结果表明,两部词典词类标注一致性较高(83.5%完全相同),而存在差异的地方可归结为三类主要原因: 词类迁移;词类判断标准不一致;收录义项不同。  相似文献   

5.
序列到序列(seq2seq)的框架可以应用到抽象语义表示(AMR)解析任务中,把AMR解析当作一个从源端句子到目标端AMR图的翻译任务。然而,以前的工作通常把源端句子表示为一个单词序列,忽略了句子内部潜藏的句法和语义角色信息。基于seq2seq框架,该文提出了一个直接而有效的融合句法和语义角色信息的AMR解析方法。实验结果表明,该文的方法在AMR英文标准数据集上取得了6.7%的显著提升。最后,该文从多个角度深入分析了源端的句法和语义角色信息是如何对AMR解析提供帮助的。分析表明,词性信息和subword技术对AMR解析性能提升的贡献最大,上层句法和语义角色信息次之。  相似文献   

6.
《现代汉语语法信息词典》的新进展   总被引:5,自引:0,他引:5  
《现代汉语语法信息词典》是面向汉语信息处理的基本语言知识库。1995年11月底通过技术鉴定。5年来,北大计算语言学研究所在应用、推广的同时,仍把重要的力量投入词典本身的发展。至目前为止,词典收词已由5万条增加到7.3万条,并且全部完成了归类;为了处理未定义词,还开发了一个全新的语素库;词语语法属性描述中的瑕疵得到了进一步的修正,新增了20多个语法属性项目和大量的实例。整个词典的规模和质量有了显著的提高。  相似文献   

7.
2009年至今,“蒙古语名词语义信息词典”(以下简称为“名词语义词典”)通过几年的开发目前词典基本成形,并且有了显著的新进展。其新进展主要体现在词条的扩充、属性字段的增添及其初步应用。该文概要介绍“名词语义词典”的研发过程,实例说明这部词典的新进展和初步应用情况。  相似文献   

8.
随着互联网技术不断地发展,数据信息呈爆炸性增长,迫切需要从海量数据中高效地提取关键信息,而实体关系抽取作为信息抽取的核心任务,发挥着不可替代的重要作用。现有基于深度学习的实体关系抽取方法存在误差累积、实体冗余、交互缺失、实体关系重叠等问题。为充分利用语句的语义信息和句法信息,提出一种加强语义信息与句法信息的二元标记实体关系联合抽取模型SSERel。通过对输入文本进行BERT编码,并对三元组主体的开始位置和结束位置进行预测标记,提取文本的全局语义特征、主体与每个词语的局部语义特征以及句法特征,并将其融合进编码向量。对语句每种关系的客体位置进行预测标记,最终完成三元组的提取。在NYT和WebNLG数据集上的实验结果表明,相比CasRel模型,该模型的F1值分别提升2.7和1.4个百分点,能够有效解决复杂数据中存在的重叠三元组和多三元组等问题。  相似文献   

9.
《现代汉语语义分类词典》(TMC)研制中若干问题的思考   总被引:1,自引:0,他引:1  
《现代汉语语义分类词典》继承了《同义词词林》概念分类的传统,以反映一个社会的生活全貌及认识观念的概念关系为目的,收录了8万余条现代汉语通用性较高的语文词语,建构出了一个五级语义分类体系,里面包括9个一级类,62个二级类,518个三级类,2 076个四级类,12 613个五级类。所建构的义类关系,注重上位语义层对下位语义层有较强控制力,下位语义层对上位语义层的义域能全面覆盖,左右语义类具有互补对应的功能。  相似文献   

10.
基于概念层次网络(HNC)理论,对多动词出现的一种情况——动词连见,进行了分类研究,给出了相应的处理规则。同时,还提出了一种基于BNF范式和产生式规则的形式化规则描述语言,完成了对规则的形式化描述和软件实现。在此基础上,对真实语料中出现动词连见的语句进行了计算机自动处理,给出了处理结果。  相似文献   

11.
书面汉语的全切分分词算法模型   总被引:11,自引:1,他引:10  
本文首先讨论了全切分研究的问题,然后从一般性出发提出了全切分的求解公式、切分树、全切分DAG(无环有向)图和全切分的抽象算法模型,在此基础上特别指出了全切分普遍存在的重复切分问题.进而,本文针对串行全切分分词算法和剪技的方法进行了研究,给出了串行全切分分词方法的算法模型.  相似文献   

12.
该文以现代汉语(特别是网络搜索词)中的名名组合为主要研究对象,探索一种基于规则的汉语名名组合的自动释义方法。其研究步骤为: (1)利用《现代汉语语义词典》中名词的语义类别,来建立名名组合的语义类组合模式;(2)在“生成词库论”中物性角色思想的指导下,用名名组合中某个名词的施成角色或功能角色作为释义动词,来揭示这两个名词之间的语义关系;(3)以语义类组合模式为单位构建名名组合的释义模板,并汇集成名名搭配数据库;(4)利用《知网》资源,来获取具体名词的施成角色和功能角色,建立汉语名词知识库。在这两个数据库的基础上,我们初步实现了一个汉语名名组合的自动释义程序。  相似文献   

13.
基于粗集的汉语词语义项知识的获取   总被引:3,自引:1,他引:3  
由于自然语言语序的灵活性,使得自然语言知识的自动获取很困难。本文基于粗糙集理论的属性值约简方法,结合基于记忆的学习(Memory Based Learning,简称MBL) ,提出了一种汉语多义动词义项知识的获取方法,用该方法获得的知识可用于词义消歧。  相似文献   

14.
汉语小句的俄语对应单位研究   总被引:1,自引:0,他引:1  
该文标注汉俄平行文本中汉语小句的俄语对应单位,并统计分析。首先,根据汉语小句切分对齐切分俄语,得到俄语对应单位;其次,对俄语对应单位进行语法标注;最后,基于标注语料,分析发现俄语对应单位。研究发现: (1)句子组成部分多(74.85%),句子少(25.15%); (2)单一述谓核心多(69.04%),无述谓核心次之(27.63%),多述谓核心少(3.33%); (3)单一述谓核心以简单谓语最多(31.84%),无述谓核心以动词短语最多(51.26%),多述谓核心以主从复合句最多(47.92%)。  相似文献   

15.
以《现代汉语语法信息词典》中语法属性的概率化描述为目标,基于1998年上半年《人民日报》标注语料,对名词语法属性的概率化进行了初步的实验研究。首先,考察了名词与数词、名词与量词搭配的相关属性,引进“分散度”概念,利用它对“数名”结构进行了定量分析;其次,考察了名词受不同量词修饰的分布情况。最后,把实验结果与《现代汉语语法信息词典》的相应属性进行了比照和分析,在属性概率化的同时也对其正确性进行了验证。  相似文献   

16.
现代汉语存在着许多歧义短语结构,仅依靠句中词性标记无法获得词与词之间正确的搭配关系。本文研究了大量包含歧义的短语实例,分析了计算机处理汉语结构时面临的定界歧义和结构关系歧义问题,在已有短语结构规则的基础上归纳出了七种结构歧义模式,提出了分析歧义模式的关键是四种基本搭配信息的判断,并实现了基于语义知识和搭配知识的消歧算法。对887处短语进行排歧的实验结果表明,处理短语结构的正确率由82.30%上升到87.18%。  相似文献   

17.
零形式识别与填充是在语篇上下文中为句中缺失的语义角色寻找填充项,然而采用分类思想预测集合中正确填充项的方法制约了零形式填充的性能。针对该问题,结合启发式规则与决策树算法识别出需要填充内容的零形式,将上下文中填充过框架元素的内容构成候选语集合,并通过改进的SMOTE算法对少数类样本数据进行扩展,解决了候选语集合数据的非平衡问题。在此基础上,借助汉语框架知识库提取语义相似性特征,利用框架元素间的映射关系提升零形式填充效果。实验结果表明,该方法在数据层面对填充样本的非平衡性进行处理,可使最终的F值提高约12%。  相似文献   

18.
框架排歧指的是在一个给定的句子中,判断句中目标词激起的语义场景与该目标词可能激起的哪个框架一致,则将该框架分配给当前的目标词。框架排歧最重要的一个步骤就是特征选择,目前常用的方法是人工特征选择方法,但是这种方法不能有效地利用每个目标词的语义特征,而且大量实验表明,不同的目标词取得最好的结果时所用的特征模板是不同的。因此,该文为每个目标词设置一个特征模板,并提出了特征模板的自动选择算法,首先从语料中抽取特征构成特征集,然后利用打分机制,把特征集中得分最高的特征逐个加入到特征模板中,直到相邻两次的得分不再增加。该文借助汉语框架网语义资源,利用最大熵模型建模,使用自动特征选择算法选出特征模板,并进行5-fold交叉验证,平均精确率可达到84.46%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号