共查询到20条相似文献,搜索用时 31 毫秒
1.
汉语语料词性标注自动校对方法的研究 总被引:6,自引:0,他引:6
兼类词的词类排歧是汉语语料词性标注中的难点问题,它严重影响语料的词性标注质量。针对这一难点问题,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息,自动生成兼类词词性校对规则,并应用获取的规则实现对机器初始标注语料的自动校对,从而提高语料中兼类词的词性标注质量。分别对50万汉语语料做封闭测试和开放测试,结果显示,校对后语料的兼类词词性标注正确率分别可提高11.32%和5.97%。 相似文献
2.
一个汉语词义自动标注系统的设计与实现 总被引:1,自引:1,他引:1
词义排歧在自然语言处理领域占有重要地位。词义排歧的精确率依赖于排歧知识的完备性。但是目前使用基于词典的和基于语料库的词义排歧方法来获取排歧知识的效果都不令人满意。文章将介绍了一个汉语词义自动标注系统,该系统实现了基于语料库的无指导的词义排歧模型,比较成功地解决了排歧知识的获取瓶颈问题。文章将给出系统的总体设计和具体实现,并给出系统测试结果。 相似文献
3.
玉素甫·艾自都拉 《计算机应用与软件》2002,19(4):59-62
本文论述了现代维语短语自动划分标注的基本处理算法、排歧处理、词义排歧中的搭配、现代维语词义排歧算法的语言学依据、现代维语词义排歧算法的实现。通过典型的例子,说明了分析器中存在的问题可以用短语划分标注和词义排歧相结合的方法并扩展到句义排歧方法来解决。 相似文献
4.
词义排歧是自然语言处理中的一个难点问题,它在机器翻译、信息检索、句子分析和语音识别等自然语言处理的许多领域中起着举足轻重的作用。因此词义排歧方法的研究在自然语言处理领域具有重要的理论和实践意义。获得带语义标记的大规模训练语料是词义排歧在自然语言处理中的一个难点。为了解决这一问题,提出了一种基于知识的语义剪枝方法。其目的是通过语义剪枝系统尽可能地减少歧义词在上下文中错误的或最不可能的义项。语义剪枝以后,形成词和其可能义项的一个列表,尽量将一个词真正正确的义项保留下来。为了对语义剪枝算法进行评价,特意开发了一个人机交互的语义标注系统,并将获得的语料应用到了词义排歧系统。通过对系统标注的语料和人工标注的语料进行对比,达到对算法评价的目的,收到了良好的效果。 相似文献
5.
面向答疑文本的词类标注方法的研究与实现 总被引:3,自引:0,他引:3
针对已有词类标注方法在标注网络答疑文本时存在的不足,文章提出了一种面向自然语言答疑文本的词类标注方法。该方法根据答疑文本的特点和后续关键信息提取的需要,对已有的词类标记集进行了扩展;用统计方法标注答疑真实文本,将其结果与正确结果相比较,从中获取词类排歧规则,使规则具有较强的文本针对性,以提高规则排歧的精度;对规则进行分类和优化,提高了标注的速度;采用先规则后统计的标注方法,较好地解决了答疑文本中规则和统计方法的组合问题。目前,该方法已在基于自然语言的网络答疑系统(NaturalLanguageOrientedWebAnswerSystem,,简称NL_WAS)中实现并得到了初步应用。 相似文献
6.
汉语疑问词具有多义性,至少有三种通用解读: 疑问解读、存在解读(虚指)和全称解读(任指)。该文从汉语疑问词的词义排歧角度出发,通过总结汉语疑问词三种解读所处的句法环境的共同特征,确立其在复杂句法环境中的强势解读,进而构建一个基于规则的汉语疑问词的语义识别模型,为制订词义排歧决策表提供依据。该文以词义最多的疑问词“什么”为例,尝试通过这一思路,来构建基于规则的“什么”的语义识别模型和词义排歧决策表,并通过实验来验证,然后将其改进。 相似文献
7.
本文采用《知网》作为语义知识资源,将语义知识形式化,实现了三个层次上的语义匹配度的计算,提出一种基于《知网》语义知识的汉语名词短语识别过程中的排歧方法。在利用词性搭配规则对名词短语进行标注的基础上,考察识别结果词语序列各成分间语义组合的合法性,实现了识别过程中的排歧。 相似文献
8.
针对交集型歧义这一汉语分词中的难点问题,提出了一种规则和统计相结合的交集型歧义消歧模型。首先,根据标注语料库,通过基于错误驱动的学习思想,获取交集型歧义消歧规则库,同时,利用统计工具,构建N-Gram统计语言模型;然后,采用正向/逆向最大匹配方法和消歧规则库探测发现交集型歧义字段;最后,通过消歧规则库和评分函数进行交集型歧义的消歧处理。这种基于混合模型的方法可以探测到更多的交集型歧义字段,并且结合了规则方法和统计方法在处理交集型歧义上的优势。实验表明,这种方法提高了交集型歧义处理的精度,为解决交集型歧义提供了一种新的思路。 相似文献
9.
维语句法分析器中的词义排岐问题的研究 总被引:1,自引:0,他引:1
玉素甫·艾白都拉 《计算机应用与软件》2002,19(4):59-62
本文论述了现代维语短语自动划分标注的基本处理算法,排歧处理,词义排歧中的搭配,现代维语词义排歧算法的语言学依据,现代维语词义排歧算法的实现。通过典型的例子,说明了分析器中存在的问题可以用短语划分标和词义排歧相结合的方法并扩展到句义排歧方法来解决。 相似文献
10.
11.
分析最大熵模型开源代码的原理和各参数的意义,采用频次和平均互信息相结合特征筛选和过滤方法,用Delphi语者编程实现汉语词义消歧的最大熵模型,运用GIS(Generalized Iterative Scaling)算法计算模型的参数。结合一些语占知识规则解决训练语料的数据稀疏问题,所实现的汉语词义消歧与标注系统,对800多个多义词进行词义标注,取得了较好的标注正确率。 相似文献
12.
13.
义类标注是信息检索和自然语言处理中的一个重要问题,但依靠人工对义类进行标注不仅是一个十分烦琐的工作,而且很难把握标准,对义类代自动标注的研究就显得尤为迫切,而要实现自动标注,必须解决多义词排歧这一重要问题,在地《现代汉语词典》的义类标注过程中,文中通过统计相邻词语义类组合串的出现频率构造了一个同现频率矩阵集,这一同现频率矩阵集充分利用了义类体系的层次结构,极大地减少了数据稀疏和数据冗余,在此基础上 相似文献
14.
本文提出一种基于AdaBoost MH算法的有指导的汉语多义词消歧方法,该方法利用AdaBoost MH算法对决策树产生的弱规则进行加强,经过若干次迭代后,最终得到一个准确度更高的分类规则;并给出了一种简单的终止算法中迭代的方法;为获取多义词上下文中的知识源,在采用传统的词性标注和局部搭配序列等知识源的基础上,引入了一种新的知识源,即语义范畴,提高了算法的学习效率和排歧的正确率。通过对6个典型多义词和SENSEVAL3中文语料中20个多义词的词义消歧实验,AdaBoost MH算法获得了较高的开放测试正确率(85.75%)。 相似文献
15.
词义排歧在自然语言处理领域占有重要地位。词义排歧的精确率依赖于排歧知识的完备性。但是目前使用的基于词典的和基于语料库的词义排歧方法来获取排歧知识的效果都不令人满意。文中借助《知网》,以义原同现频率矩阵作为排歧知识,在其基础上设计并实现了一个基于义原同现频率的汉语词义排歧系统,大大地提高词义排歧的精确率。 相似文献
16.
17.
从神经网络的基本原理和自动词义排歧的技术入手,阐明应用神经网络技术进行汉语词义排歧研究的基本方法和步骤,并给出了实验结果和分析。 相似文献
18.
针对传统基于义原同现频率的汉语词义排歧算法的“盲目性”,提出一种“双距离”词义排歧算法,即在计算待排歧词各义项与特征词之间的相关系数时,考虑两个距离因素:特征词与待排歧词之间的空间距离;最近选择该义项的同形歧词与该待排歧词之间的空间距离。实验表明,改进的算法是有效的。 相似文献
19.
针对多年来词义消歧方法的不完善,从可计算性及其计算复杂度方面分析了多种不同结构的知识词典,最后选择北大计算语言所的《现代汉语语法信息词典》、《现代汉语语义词典》和同形标注的人民日报语料作为词义消歧知识源。研究了异构多知识源的融合方法,提取了敏捷规则知识库和词义搭配库,设计出了一种规则与统计相结合的词义消歧方法。在多种方法中最大熵与规则相结合的词义消歧方法准确率最高,与SemEval 2007(task #5)的最好成绩相比,分别在微平均值 MicroAve(micro-average accuracy)和宏平均值MacroAve(macro-average accuracy)上提升了5.5%和0.9%。 相似文献
20.
规则与统计结合进行汉英机器翻译消歧 总被引:2,自引:0,他引:2
采用基于转换的方法进行汉英机器翻译,在机器翻译的每个阶段(汉语切分、词性标注、句法语义分析、树转换、词串生成)采用规则方法和统计方法相结合进行消歧。实验结果表明:两种方法结合提高了机器翻译的正确率。 相似文献