首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
二字词词义组合推理方法的研究   总被引:2,自引:1,他引:1  
汉字是表义文字,具有丰富的语义内容,汉字是一个有限的封闭集,它的数目是有限的,而汉语的词是一个开放系统,它是无限的。本文以“字义基元化、词义组合化”为基本思想,从字义着手,研究二字词词义组合。首先以经过整理的《现代汉语规范字典》、《现代汉语词典》和《同义词词林》为资源,从中自动搜索、抽取出二字词词义组合,建立汉字字义、词义知识库,然后再采用《同义词词林》的语义体系,通过语义相关度等的计算确定它们的组合类型,为研究二字词词义的组合提供一定的参考价值。  相似文献   

2.
义类自动标注方法的研究   总被引:3,自引:1,他引:2  
句法分析不能满足汉语分析的需要,句法和语义相结合的分析方法适用于汉语分析。分析的基础要有一部语法语义词典。目前的机读词典多是语法词典,因而需要在语法词典中加入词的语义信息。《同义词词林》是一部较好的义类词典,但没有语法信息,可以《同义词词林》的分类体系对语法词典进行义类标注,得到语法语义词典。这一过程中有不一致的情况,特别地,对《同义词词林》中未收录的词就不能直接标注义类。本文采用《同义词词林》的分类体系,研究设计了一个汉语词自动义类标注算法,对北大《现代汉语语法信息词典》进行自动义类标注。实验结果较为满意,得到91%的准确率。  相似文献   

3.
文章介绍了立足于机读文本资源——机读《现代汉语词典》和机读《同义词词林》,分级建造以统一管理、共享数据资源为特征的汉语语义词典的研究工作。  相似文献   

4.
基于语义依存关系的汉语语料库的构建   总被引:4,自引:1,他引:4  
语料库是自然语言处理中用于知识获取的重要资源。本文以句子理解为出发点,讨论了在设计和建设一个基于语义依存关系的汉语大规模语料库过程中的几个基础问题,包括:标注体系的选择、标注关系集的确定,标注工具的设计,以及标注过程中的质量控制。该语料库设计规模100万词次,利用70个语义、句法依存关系,在已具有语义类标记的语料上进一步标注句子的语义结构。其突出特点在于将《知网》语义关系体系的研究成果和具体语言应用相结合,对实际语言环境中词与词之间的依存关系进行了有效的描述,它的建成将为句子理解或基于内容的信息检索等应用提供更强大的知识库支持。  相似文献   

5.
义类标注是信息检索和自然语言处理中的一个重要问题,但依靠人工对义类进行标注不仅是一个十分烦琐的工作,而且很难把握标准,对义类代自动标注的研究就显得尤为迫切,而要实现自动标注,必须解决多义词排歧这一重要问题,在地《现代汉语词典》的义类标注过程中,文中通过统计相邻词语义类组合串的出现频率构造了一个同现频率矩阵集,这一同现频率矩阵集充分利用了义类体系的层次结构,极大地减少了数据稀疏和数据冗余,在此基础上  相似文献   

6.
针对越南语事件标注语料稀缺且标注语料中未登陆词过多导致实体识别精度降低的问题,提出一种融合词典与对抗迁移的实体识别模型。将越南语作为目标语言,英语和汉语作为源语言,通过源语言的实体标注信息和双语词典提升目标语言的实体识别效果。采用词级别对抗迁移实现源语言与目标语言的语义空间共享,融合双语词典进行多粒度特征嵌入以丰富目标语言词的语义表征,再使用句子级别对抗迁移提取与语言无关的序列特征,最终通过条件随机场推理模块标注实体识别结果。在越南语新闻数据集上的实验结果表明,在源语言为英语和汉语的情况下,该模型相比主流的单语实体识别模型和迁移学习模型的实体识别性能有明显提升,并且在加入目标语义标注数据后,相比单语实体识别模型的F1值分别增加了19.61和18.73个百分点。  相似文献   

7.
藏文词性标注是藏文信息处理的基础,在藏文文本分类、自动检索、机器翻译等领域有广泛的应用。该文针对藏文语料匮乏,人工标注费时费力等问题,提出一种基于词向量模型的词性标注方法和相应算法,该方法首先利用词向量的语义近似计算功能,扩展标注词典;其次结合语义近似计算和标注词典,完成词性标注。实验结果表明,该方法能够快速有效地扩大了标注词典规模,并能取得较好的标注结果。  相似文献   

8.
词义消歧是自然语言处理中的一项基础任务,古汉语信息处理也急需深层次的语义标注工作。该文针对先秦古汉语这一特殊的语言材料,在训练语料和语义资源匮乏的条件下,采用《汉语大词典2.0》作为知识来源,将其词条释义作为义类,每个义项的例句作为训练语料,使用基于支持向量机(SVM)的半指导方法对《左传》进行全文的词义标注。按照频度不同、义项数量不同的原则,我们随机选取了22个词进行了人工检查,平均正确率达到67%。该方法可以广泛用于缺乏训练语料的古汉语义项标注工作,能够在古汉语全文词义标注的起步阶段提供初始结果,为人工标注词语义项提供良好的数据底本,补正传统词典释义不全的问题,进一步丰富汉语史发展研究资料。  相似文献   

9.
词典是汉语自然语言处理中非常重要的一类资源,它能为汉语词法句法以及语义分析等提供资源支撑。该文采用众包方法构建汉语语义相关性词典,该词典是通过触发词联想的方式间接获取的,因此又称为词汇联想网络。词汇联想网络相比传统词典具有以下特点 (1)获取代价低;(2)面向互联网,易扩展;(3)词语关系从人的认知角度来建立,符合人的直觉。该文详细介绍词汇联想网络的获取方法并对已获取的数据进行分析,另外,将词汇联想网络与《知网》、《同义词词林》以及微博文本ngram进行比较说明其上述特点。  相似文献   

10.
杨抒  伊波 《计算机科学》1989,16(5):41-44
本文通过分析现有词典匹配汉语词切分法及相应切分错误检出与纠正方法的现状及不足,提出了一种基于后加词典,利用句法语义知识的汉语词切分检纠错方法,这种方法旨在将词切分作为汉语理解的有机组成部分,使得检纠切分错误更加有效,同时,利用后加词典,提高了词切分出错后重新切分的效率。  相似文献   

11.
该文基于知识库的语素构词知识,采用了分阶段的算法自动预测未登录词的语素构词知识,以此实现对未登录词的语义预测。基本思路是通过语素义组合或语素义类组合的匹配,先预测语义层面的知识,再确定相应语素项,最终获得未登录词多层面的语素构词知识。该算法简单、直观、合理,在首素性类、首素义类、首素义、尾素性类、尾素义类、尾素义、构词方式这七项预测内容全部正确的标准下,实验结果的预测正确率为62.32%,召回率为61.72%。  相似文献   

12.
《现代汉语语义分类词典》(TMC)研制中若干问题的思考   总被引:1,自引:0,他引:1  
《现代汉语语义分类词典》继承了《同义词词林》概念分类的传统,以反映一个社会的生活全貌及认识观念的概念关系为目的,收录了8万余条现代汉语通用性较高的语文词语,建构出了一个五级语义分类体系,里面包括9个一级类,62个二级类,518个三级类,2 076个四级类,12 613个五级类。所建构的义类关系,注重上位语义层对下位语义层有较强控制力,下位语义层对上位语义层的义域能全面覆盖,左右语义类具有互补对应的功能。  相似文献   

13.
利用ASP.NET和SQLSREVER技术,文章介绍了基于网络的多功能现代汉字辞典的设计思路和实现方法。针对汉字信息容量大和多种媒介存储的特点设计数据库相关索引结构,通过拼音、部首、笔划等多种输入方法,在网页上显示汉字字义、结构、解释和词语等信息,以及读音示范和汉字的动态笔顺显示等纸质媒体无法实现的功能。  相似文献   

14.
作为基础的表义单位,语素及此上的构词分析,既是汉语作为意合语言进行语义分析的起点,也是认知、理解词义的关键。该文提出了一种探寻汉语语义基元和分析词义的新的视角和方法: 基于语素义相似度计算形成“同义语素集”,用来表征“语素概念”,并借鉴生成词库理论形成“语素概念体系”;建立在此基础上的汉语语义构词分析,在全局性语义分析、数据挖掘等方面也有新的进展。这些思路、做法及语言资源建设,有望推动人文领域和计算应用等相关工作的开展。  相似文献   

15.
针对情感词典构建中只反映了语言知识,缺乏语用知识的问题,提出了一种从真实语料中获取词语间的共现关系,并结合词语同义关系、语素特征进行中文褒贬词典半监督构建的方法。利用点互信息从语料中构建了情感词语和评价对象之间的相关性矩阵,采用非负矩阵分解的方法将其分解为情感词语之间的共现矩阵及新的情感词语-评价对象关系矩阵;将关系矩阵结合同义、语素特征,利用标签传播算法进行词语的褒贬分类。实验结果表明,在相同的数据集上该方法提高了只考虑语素和语义特征词典的准确率和召回率。  相似文献   

16.
该文首先介绍了鲁东大学进行的语义构词研究,说明了“无向型名词”的所指;进一步运用物性结构理论,分析语素义转指的六种类型,并提出结合转喻、隐喻、转隐喻理论共同解释“无向型名词”词义构成的研究方法;根据两个语素义如何通过转喻或隐喻转化为词义,将无向型词语分为八类。根据物性结构理论,具体分析无向型词语的语素义体现了哪种物性角色,语素义与词义是什么关系,语素义是基于相关性发生转喻还是基于相似性发生隐喻。最后总结了语素义整合转化为词义的特点,八种类型中前项—后项转喻(包含整体转喻)、前项—后项隐喻(包含整体隐喻)数量最多,符合人类普遍认知规律。  相似文献   

17.
面向Internet的中文新词语检测   总被引:16,自引:7,他引:16  
随着社会的飞速发展,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法,通过大规模地分析从Internet上采集而来的网页,建立巨大的词和字串的集合,从中自动检测新词语,而后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出采集语料中存在的新词语。根据该方法实现的系统,可以寻找不限长度和不限领域的新词语,目前正应用于《现代汉语新词语信息(电子)词典》的编纂,在实用中大大的减轻了人工查找新词语的负担。  相似文献   

18.
摘要:就语素字的再分类做了深入的研究,借鉴CLAWS算法,并在它的基础上引入了语义向量来辅助词性的自动标注。分析了语素字上下文中的标注的词性特点以及搭配词语来计算最有可能的语素字词性,实验表明该方法获得了较好的效果。  相似文献   

19.
词汇教学在汉语二语教学领域占有极为重要的地位,其中多义词又是词汇教学的重点和难点。该研究通过分析三部经典领域词表,选取了1 181个重点多义词,以《现代汉语词典(第6版)》为标注体系,制定了适合实际标注的多义词标注规范和形式,在197册经典汉语二语教材上进行了多义词词义标注,构建了一个规模约350万字的面向汉语二语教学领域的词义标注语料库,并在此基础上对1 811个多义词、4 323个多义词义项进行了计量统计,分析了多义词不同词义的出现情况及其分布规律。为了更好地服务于汉语二语教学,开发了语料库检索系统,设计并实现了多义词义项的查询功能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号