共查询到19条相似文献,搜索用时 78 毫秒
1.
义类标注是信息检索和自然语言处理中的一个重要问题,但依靠人工对义类进行标注不仅是一个十分烦琐的工作,而且很难把握标准,对义类代自动标注的研究就显得尤为迫切,而要实现自动标注,必须解决多义词排歧这一重要问题,在地《现代汉语词典》的义类标注过程中,文中通过统计相邻词语义类组合串的出现频率构造了一个同现频率矩阵集,这一同现频率矩阵集充分利用了义类体系的层次结构,极大地减少了数据稀疏和数据冗余,在此基础上 相似文献
2.
3.
4.
《现代汉语语义分类词典》(TMC)研制中若干问题的思考 总被引:1,自引:0,他引:1
《现代汉语语义分类词典》继承了《同义词词林》概念分类的传统,以反映一个社会的生活全貌及认识观念的概念关系为目的,收录了8万余条现代汉语通用性较高的语文词语,建构出了一个五级语义分类体系,里面包括9个一级类,62个二级类,518个三级类,2 076个四级类,12 613个五级类。所建构的义类关系,注重上位语义层对下位语义层有较强控制力,下位语义层对上位语义层的义域能全面覆盖,左右语义类具有互补对应的功能。 相似文献
5.
6.
汉语词典的快速查询算法研究 总被引:5,自引:0,他引:5
汉语词典查询是中文信息处理系统的重要基础部分,对系统效率有重要的影响。本文对汉语词典查询算法研究作了简要回顾,设计实现了基于双数组TRIE机制的汉语词典查询算法,并提出了基于双编码机制的词典查询算法。最后以逐字二分法查询性能为基准,使用这两种词典询机制进行了词语直接查询和分词查询两种应用的性能测试。经过实验分析,双数组TRIE机制的词典查询算法在查询速度上提高明显,查询速度约是逐字二分法的5倍。双编码机制的的词典查询算法查询速度有一定提高,而且调整机制更加灵活。 相似文献
7.
对文本情感分析中的情感词识别任务进行了研究,提出了综合利用已有各种语言知识以及辞典中的信息和知识来判断识别情感词.在识别中主要借助于不同语义知识词典中提供的词语间的知识和关系,对候选词进行语义归类,并计算情感置信度.实验结果表明,该方法能够很大限度利用手工编撰词典中的权威信息,快速识别文本中的情感词,对于词典中不存在的未登录词也有一定的识别能力. 相似文献
8.
语义角色标注是自然语言处理中的一项重要任务,涉及文本挖掘、神经网络学习、统计语言学等多个研究领域。在对一个汉语语料库进行语义角色分析时,发现现有的汉语语义角色体系存在一定的局限性。通过引入新的语义角色、吸收和重新定义现有语义角色体系中的语义角色,该文提出了一种改进的汉语语义角色分类体系。该语义角色分类体系将事件中的语义角色分为两大类,即中枢语义角色和周边语义角色,其中,周边语义角色可进一步被细分为主要周边语义角色和辅助周边语义角色。为了减少语义理解的主观性从而客观地判断语义角色类型,该文基于语义和句式以“判断标准-相应例句”的形式详细解释了语义角色分类体系中的主要周边语义角色,并从中枢语义角色半自动化判断、复合动词作中枢语义角色处理、易混淆语义角色难点分析和辅助周边语义角色标注规定等多个方面给出了提高语义角色标注一致性的说明。最后,根据提出的语义角色分类体系对实验语料库进行了语义角色的标注实践,分析了标注一致性,统计了新提出和重定义的主要周边语义角色在语料库中的分布情况,并与基于鲁川语义角色分类体系得到的标注结果进行了对比。 相似文献
9.
本文首先阐明了汉语分析中所要面对的问题,并描述了如何建立搭配词典以表达个性的语言现象及处理规则.为了适应自然语言中的随机性和规律性,我们提出一个词汇语义驱动算法,它不仅提高了系统的效率,而且较好地解决了自然语言处理中诸如词汇兼类处理这样的难题. 相似文献
10.
该文首先介绍《动词句法语义信息词典》的体系结构与理论背景;然后,介绍该词典所区分的8种动词小类及其定义;重点介绍该词典为动词所设置的22种语义角色及其定义,由这些语义角色的不同配置而造成的20来种句法格式及其例句,及其所考察的动词的9种主要的语法功能及其对于该词类的隶属度;最后,给出该词典的检索系统的界面截图,交代其相应的纸质版本的情况。 相似文献
11.
以跨语言信息检索需求为背景,介绍了目前语义词典及应用的概况,根据蒙古文互联网发展的现状,从应用需求出发,提出构建面向跨语言信息检索的蒙汉双语语义词典的重要性,并利用构建领域本体的方法给出蒙汉双语计算机术语语义词典的初步设计方法。 相似文献
12.
2009年至今,“蒙古语名词语义信息词典”(以下简称为“名词语义词典”)通过几年的开发目前词典基本成形,并且有了显著的新进展。其新进展主要体现在词条的扩充、属性字段的增添及其初步应用。该文概要介绍“名词语义词典”的研发过程,实例说明这部词典的新进展和初步应用情况。 相似文献
13.
一种中文分词词典新机制——四字哈希机制 总被引:9,自引:0,他引:9
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。 相似文献
14.
该文首先针对传统方法研究形名组合的不足,提出了理解形名组合的基本语义模式,即事物、属性值和属性域;其次,根据形名组合的理解模式和语料库的调查,从哲学理论和语言事实角度,把名词各自分成了主体、事体、物体、时空、逻辑五个次类,把形容词分成了主体、事体、物体、时空和评价五个次类;最后,借助于计算语言学的研究思想和语义语法的理论原则,构建了形容词次类与名词次类间语义匹配的形名语义组合模型。研究结果表明该形名语义组合模型能深入细致地揭示形容词与名词的组合规律。 相似文献
15.
现代汉语存在着许多歧义短语结构,仅依靠句中词性标记无法获得词与词之间正确的搭配关系。本文研究了大量包含歧义的短语实例,分析了计算机处理汉语结构时面临的定界歧义和结构关系歧义问题,在已有短语结构规则的基础上归纳出了七种结构歧义模式,提出了分析歧义模式的关键是四种基本搭配信息的判断,并实现了基于语义知识和搭配知识的消歧算法。对887处短语进行排歧的实验结果表明,处理短语结构的正确率由82.30%上升到87.18%。 相似文献
16.
17.
18.
语义角色除了受句法结构限制之外,同词汇的语义特征也有着紧密的内在联系。对于一些仅依靠句法分析不能很好解决的角色标注问题,如句法结构相同的两个成分所对应的角色分别为完全不同的施事、受事角色的情况,可以通过引入一些词汇语义特征来进行处理。该文基于北京大学的语义词典CSD,引入了配价数、主客体语义类等词汇语义特征来进行语义角色标注研究。10折交叉验证的结果显示,通过引用词汇语义特征,所有角色标注的总体评价F值比单纯使用句法特征上升了1.11%,而其中Arg0和Arg1角色标注的F值达到93.85%和90.60%,比仅使用句法特征进行角色标注分别提高了1.10%和1.26%。 相似文献