共查询到18条相似文献,搜索用时 218 毫秒
1.
2.
羊毛卓玛 《计算机工程与应用》2013,(24):135-137,148
藏文词性自动标注是藏文信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性歧义问题的处理是藏文词性自动标注的关键所在,也是藏文信息处理的难点问题。对藏文词性标注中词性歧义问题进行了分析研究,提出了符合藏丈语法规则实用于藏文词性标注的解决词性排岐方法。实验证明:该处理方法在藏文词性自动标注中对词性排岐方面有较好的效果,使藏文词性标注正确率有了一定的提高。 相似文献
3.
4.
5.
《计算机应用与软件》2014,(2)
介绍在一种确定语料库中高频生词的处理方法。在分析隐马尔科夫模型在词性标注中的具体实现以及生词问题的关键所在的基础上,结合现有的生词处理方法,通过设定相应的阈值,并结合生词的词性特征,针对英汉生词词性分布的特点,选取生词中更加有价值的高频词加入训练文本,达到完善语料库,提高标注准确率的目的。并对HMM模型和加入生词处理方法之后的模型的标注准确性进行比较。实验表明,上述方法可以有效地选择出某领域具有代表性的高频词,在训练文本中加入这些词,能够较大提高词性标注的准确率,满足了词性标注应用于实际的基本要求。 相似文献
6.
词性标注在很多信息处理环节中都扮演着关键角色。哈萨克语作为新疆地区通用的少数民族语言之一,自然语言处理中的一些基础性的课题同样成为迫切需要解决的问题。分析了哈萨克语的构形语素特征,基于词典的一级标注基础上,采用统计方法,训练得到二元语法的HMM模型参数,运用Viterbi算法完成了基于统计方法的词性标注,最后运用哈语规则库对词性标注进行了修正。对单纯使用统计方法和以统计为主辅以规则修正的方法进行了比对测试,结果表明后者排岐正确率有所提高。 相似文献
7.
针对机构命名实体识别效率低的问题,提出一种基于隐马尔科夫模型(HMM)的京剧机构命名实体识别算法.利用HMM模型标注文本切分结果的词性消除歧义,通过Viterbi算法计算某种分词结果所对应的可能性最大的词性序列.根据定制的名称识别规则,借助机构前缀词库、后缀词库获得机构名称左右边界,通过自动机算法识别语料中的机构命名实体,并将新词加载到分词词典中.针对京剧领域语料进行开放测试验证,结果表明,该算法的识别正确率可达到99%. 相似文献
8.
9.
10.
11.
12.
13.
匹配树和决策树方法识别英语句子中的BaseNP 总被引:1,自引:1,他引:1
提出了语料库和机器学习相结合的方法识别英语句子中的简单的、非递归的名词短语(BaseNP),在含有词性标注和BaseNP边界标注的训练语料中,抽取所有不同类型BaseNP短语对应的词性序列(BaseNP规则),通过规则排序和语方学知识,对其中正确率低且明显不符合语法的规则进行剔除,在识别时,采取规则匹配树的方法进行最大长度匹配,通过归纳机器学习C4.5自满引入上下文信息,由C4.5算法学习出有效( 相似文献
14.
15.
面向答疑文本的词类标注方法的研究与实现 总被引:3,自引:0,他引:3
针对已有词类标注方法在标注网络答疑文本时存在的不足,文章提出了一种面向自然语言答疑文本的词类标注方法。该方法根据答疑文本的特点和后续关键信息提取的需要,对已有的词类标记集进行了扩展;用统计方法标注答疑真实文本,将其结果与正确结果相比较,从中获取词类排歧规则,使规则具有较强的文本针对性,以提高规则排歧的精度;对规则进行分类和优化,提高了标注的速度;采用先规则后统计的标注方法,较好地解决了答疑文本中规则和统计方法的组合问题。目前,该方法已在基于自然语言的网络答疑系统(NaturalLanguageOrientedWebAnswerSystem,,简称NL_WAS)中实现并得到了初步应用。 相似文献
16.
17.
统计与规则并举的汉语句法分析模型 总被引:6,自引:0,他引:6
在自然语言分析中,传统的基于规则的方法和近年兴起的基于统计的方法各有利弊,如何把二者有机的结合起来,以提高分析器的处理能力,是当前计算语言学的重要课题。本文采用依存文法,提出了一种基于依存文法的融合语料库,规则方法和统计方法的汉语分析模型。该模型的特点是将汉语依存文法分析看作是与词性标注过程等价的一个基于统计的标注过程。文中首先介绍了CRSP的设计思想,然后讨论了从标注过的语料中获取知识的方法,叙 相似文献