共查询到20条相似文献,搜索用时 127 毫秒
1.
用隐马尔柯夫模型对汉语进行切分和标注排歧 总被引:8,自引:2,他引:6
刘颖 《计算机工程与设计》2001,22(4):58-62,68
对汉语进行切分和标注,不可避免要产生歧义,文中对切分和标注阶段采用相同的模型-隐马尔柯夫模型(HMM)来消歧,在切分阶段,使用基于HMM的切分评分,而在标沐阶段,使用基于HMM的词汇评分,并按最大可能原理和多结果输出原理进行词汇评分实验,实验结果表明,用HMM对汉语进行标注排歧,正确率很高。 相似文献
2.
规则与统计结合进行汉英机器翻译消歧 总被引:2,自引:0,他引:2
采用基于转换的方法进行汉英机器翻译,在机器翻译的每个阶段(汉语切分、词性标注、句法语义分析、树转换、词串生成)采用规则方法和统计方法相结合进行消歧。实验结果表明:两种方法结合提高了机器翻译的正确率。 相似文献
3.
分析最大熵模型开源代码的原理和各参数的意义,采用频次和平均互信息相结合特征筛选和过滤方法,用Delphi语者编程实现汉语词义消歧的最大熵模型,运用GIS(Generalized Iterative Scaling)算法计算模型的参数。结合一些语占知识规则解决训练语料的数据稀疏问题,所实现的汉语词义消歧与标注系统,对800多个多义词进行词义标注,取得了较好的标注正确率。 相似文献
4.
针对交集型歧义这一汉语分词中的难点问题,提出了一种规则和统计相结合的交集型歧义消歧模型。首先,根据标注语料库,通过基于错误驱动的学习思想,获取交集型歧义消歧规则库,同时,利用统计工具,构建N-Gram统计语言模型;然后,采用正向/逆向最大匹配方法和消歧规则库探测发现交集型歧义字段;最后,通过消歧规则库和评分函数进行交集型歧义的消歧处理。这种基于混合模型的方法可以探测到更多的交集型歧义字段,并且结合了规则方法和统计方法在处理交集型歧义上的优势。实验表明,这种方法提高了交集型歧义处理的精度,为解决交集型歧义提供了一种新的思路。 相似文献
5.
6.
本文提出一种基于AdaBoost MH算法的有指导的汉语多义词消歧方法,该方法利用AdaBoost MH算法对决策树产生的弱规则进行加强,经过若干次迭代后,最终得到一个准确度更高的分类规则;并给出了一种简单的终止算法中迭代的方法;为获取多义词上下文中的知识源,在采用传统的词性标注和局部搭配序列等知识源的基础上,引入了一种新的知识源,即语义范畴,提高了算法的学习效率和排歧的正确率。通过对6个典型多义词和SENSEVAL3中文语料中20个多义词的词义消歧实验,AdaBoost MH算法获得了较高的开放测试正确率(85.75%)。 相似文献
7.
8.
利用上下文信息解决汉语组合型歧义 总被引:1,自引:0,他引:1
汉语自动分词问题是制约中文信息处理发展的瓶颈之一,歧义切分又是影响分词系统切分精度的重要因素。在对已有方法深入分析的基础上,提出利用上下文信息的消歧策略。结果显示,经多次学习后搭配信息显示的消歧参数逐渐趋于稳定,且消歧准确率有大幅度提高。 相似文献
9.
10.
组合型歧义切分字段一直是汉语自动分词的难点.用人工校验后的分词语料提供的搭配实例作为组合歧义字段的初始搭配知识,提出使用搭配统计表的多元最大对数似然比进行消歧;继而根据实验确定了歧义字段的上下文窗口、窗口位置区分、权值估计等要素;在此基础上采用自组织方法自动扩充搭配集,使消歧信息趋于稳定;最后,对提出的方法进行了实验,实验表明,该算法能有效提高消歧准确率. 相似文献
11.
Chengyao Lv Huihua Liu Yuanxing Dong Yunliang Chen 《International Journal of Speech Technology》2016,19(3):647-654
In natural language processing, a crucial subsystem in a wide range of applications is a part-of-speech (POS) tagger, which labels (or classifies) unannotated words of natural language with POS labels corresponding to categories such as noun, verb or adjective. Mainstream approaches are generally corpus-based: a POS tagger learns from a corpus of pre-annotated data how to correctly tag unlabeled data. Presented here is a brief state-of-the-art account on POS tagging. POS tagging approaches make use of labeled corpus to train computational trained models. Several typical models of three kings of tagging are introduced in this article: rule-based tagging, statistical approaches and evolution algorithms. The advantages and the pitfalls of each typical tagging are discussed and analyzed. Some rule-based and stochastic methods have been successfully achieved accuracies of 93–96 %, while that of some evolution algorithms are about 96–97 %. 相似文献
12.
Hrafn Loftsson 《Language Resources and Evaluation》2006,40(2):175-181
We use integrations and combinations of taggers to improve the tagging accuracy of Icelandic text. The accuracy of the best
performing integrated tagger, which consists of our linguistic rule-based tagger for initial disambiguation and a trigram
tagger for full disambiguation, is 91.80%. Combining five different taggers, using simple voting, results in 93.34% accuracy.
By adding two linguistically motivated rules to the combined tagger, we obtain an accuracy of 93.48%. This method reduces
the error rate by 20.5%, with respect to the best performing tagger in the combination pool. 相似文献
13.
刘颖 《计算机应用与软件》2001,18(11):56-59
机器翻译中,在词性标注和句法语义分析阶段经常会遇到歧义,使用基于统计方法的词汇评分和句法语义评分就是对词性标注和句法语义分析阶段产生的歧义进行消歧,在用统计方法消歧时,经常遇到的一个现象就是数据稀疏问题,本文对词汇评分和句法语义评分遇到数据稀疏现象使用改进的Turing公式来平滑参数,给出平滑算法对词汇评分平滑的处理过程,在实验中给出语料与参数数量,正确率的实验结果。 相似文献
14.
目前各种基于规则的分类方法在电子邮件过滤中起到了良好的效果,在邮件过滤器的训练中,训练集中会存在部分邮件具有邮件类别模糊的现象,如何将训练集中的此类类别界限模糊的邮件提取出来将会对邮件的分类效果有明显提高的作用。提出一种基于聚类的过滤方法,根据界限模糊邮件数据之间的共性特征,对邮件训练集进行聚类。实验表明,与单纯的进行基于规则的分类算法相比,这种方法在各项评价指标上具有优越性。 相似文献
15.
修辞结构理论是一种重要的篇章结构理论,其核心是修辞结构关系。该文基于修辞结构理论,结合中文文本特点,提出面向中文的层次化修辞结构关系分类体系及多元定义。同时,针对标注者遇到的歧义问题,提出了无歧义标注方法。为了便于标注,设计并实现了基于Java图形界面的标注工具RSTTagger,该工具以句子的主谓结构关键词构成的元组作为基本标注单位,自底向上逐级标注,最终标注成一棵完整的修辞结构关系树。为验证标注结果的一致性,选取160篇中文外贸领域语料进行标注,不同标注者同时标注其中50篇,标注一致性达到76.63%。该标注框架可以应用到其他领域语料标注中,已标注的160篇语料可以作为篇章结构理论研究的基础语料库。 相似文献
16.
针对现有的中文开放领域知识库问答系统缺乏对多关系问答的支持,将知识库问答过程分为实体识别、实体关系抽取和答案检索三个步骤,重点讨论了实体关系抽取的实现方法。在实体关系抽取阶段,提出一种基于规则的关系词提取方法抽取问句中的关系词,然后将关系词与知识库中的谓词进行相似度计算,得到关系集合,结合实体识别的结果,将问句转换为具有语义信息的三元组形式。实验结果表明,该方法可以支持多关系问答,并且具有较高的平均F1分数。 相似文献
17.
In a multimodal biometric system, the effective fusion method is necessary for combining information from various single modality systems. In this paper the performance of sum rule-based score level fusion and support vector machines (SVM)-based score level fusion are examined. Three biometric characteristics are considered in this study: fingerprint, face, and finger vein. We also proposed a new robust normalization scheme (Reduction of High-scores Effect normalization) which is derived from min-max normalization scheme. Experiments on four different multimodal databases suggest that integrating the proposed scheme in sum rule-based fusion and SVM-based fusion leads to consistently high accuracy. The performance of simple sum rule-based fusion preceded by our normalization scheme is comparable to another approach, likelihood ratio-based fusion [8] (Nandakumar et al., 2008), which is based on the estimation of matching scores densities. Comparison between experimental results on sum rule-based fusion and SVM-based fusion reveals that the latter could attain better performance than the former, provided that the kernel and its parameters have been carefully selected. 相似文献
18.
晋耀红 《计算机工程与应用》2012,48(4):29-32
针对专利文本翻译中的复杂语句,提出了一种基于混合策略的方法,融合语义分析技术和基于规则的翻译技术,来提高专利翻译的效果。利用语义分析技术,重点解决句子中心动词识别和句子中有嵌套结构存在的名称短语的分析,把语义分析结果输入到基于规则的翻译系统中,用以改善翻译的效果。测试结果表明,融合后的翻译系统,BLEU值提高了9.8%。该方法已经集成到了国家知识产权局的在线汉英机器翻译系统中,有效地提高了专利翻译的效果和翻译效率。 相似文献
19.
本文提出了将三阶隐马尔可夫模型运用到维吾尔语词性标注中的方法。运用改进的Baum-Welch方法训练模型参数。并且采用改良的动态规划方法:viterbi算法,找出最优标注序列。 相似文献
20.
本文提出了将三阶隐马尔可夫模型运用到维吾尔语词性标注中的方法。运用改进的Baum-Welch方法训练模型参数。并且采用改良的动态规划方法:viterbi算法,找出最优标注序列。 相似文献