期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

用隐马尔柯夫模型对汉语进行切分和标注排歧 总被引：8，自引：2，他引：6

刘颖《计算机工程与设计》2001,22(4):58-62,68

对汉语进行切分和标注,不可避免要产生歧义,文中对切分和标注阶段采用相同的模型-隐马尔柯夫模型（HMM）来消歧,在切分阶段,使用基于HMM的切分评分,而在标沐阶段,使用基于HMM的词汇评分,并按最大可能原理和多结果输出原理进行词汇评分实验,实验结果表明,用HMM对汉语进行标注排歧,正确率很高。相似文献

2.

规则与统计结合进行汉英机器翻译消歧 总被引：2，自引：0，他引：2

刘颖《计算机应用》2002,22(5):21-23,30

采用基于转换的方法进行汉英机器翻译，在机器翻译的每个阶段（汉语切分、词性标注、句法语义分析、树转换、词串生成）采用规则方法和统计方法相结合进行消歧。实验结果表明：两种方法结合提高了机器翻译的正确率。相似文献

3.

基于最大熵模型的汉语词义消歧与标注方法 总被引：3，自引：0，他引：3

下载免费PDF全文

张仰森《计算机工程》2009,35(18):15-18

分析最大熵模型开源代码的原理和各参数的意义,采用频次和平均互信息相结合特征筛选和过滤方法,用Delphi语者编程实现汉语词义消歧的最大熵模型,运用GIS（Generalized Iterative Scaling）算法计算模型的参数。结合一些语占知识规则解决训练语料的数据稀疏问题,所实现的汉语词义消歧与标注系统,对800多个多义词进行词义标注,取得了较好的标注正确率。相似文献

4.

基于混合模型的交集型歧义消歧策略 总被引：1，自引：0，他引：1

下载免费PDF全文

李天侠戴新宇陈家骏《计算机工程与应用》2008,44(21):5-8

针对交集型歧义这一汉语分词中的难点问题,提出了一种规则和统计相结合的交集型歧义消歧模型。首先,根据标注语料库,通过基于错误驱动的学习思想,获取交集型歧义消歧规则库,同时,利用统计工具,构建N-Gram统计语言模型;然后,采用正向/逆向最大匹配方法和消歧规则库探测发现交集型歧义字段;最后,通过消歧规则库和评分函数进行交集型歧义的消歧处理。这种基于混合模型的方法可以探测到更多的交集型歧义字段,并且结合了规则方法和统计方法在处理交集型歧义上的优势。实验表明,这种方法提高了交集型歧义处理的精度,为解决交集型歧义提供了一种新的思路。相似文献

5.

识别性学习算法

刘颖《计算机应用研究》2000,17(10)

使用统计方法对词性标注和句法语义分析产生的歧义进行消歧,一般用最大可能原理,但是并不是在所有的情况下取最大值都是正确的。为了从多个候选结果中按最大可能原理选取取到正确的结果,使用识别性学习算法。使用这个算法的目的在于：当正确的候选结果评分不是最高时,仍能通过识别性算法来调整正确结果的评分,使之最大,并且降低不正确候选的评分。使用识别性学习算法对词性标注和句法语义分析阶段进行实验,实验结果表明,使用识别性学习算法比单纯利用最大可能原理消歧的正确率高。因此,把最大可能原理和识别性学习算法结合起来有助于提高消歧的正确率。相似文献

6.

基于AdaBoost.MH算法的汉语多义词消歧

刘风成黄德根姜鹏《中文信息学报》2006,20(3):8-15

本文提出一种基于AdaBoost MH算法的有指导的汉语多义词消歧方法,该方法利用AdaBoost MH算法对决策树产生的弱规则进行加强,经过若干次迭代后,最终得到一个准确度更高的分类规则;并给出了一种简单的终止算法中迭代的方法;为获取多义词上下文中的知识源,在采用传统的词性标注和局部搭配序列等知识源的基础上,引入了一种新的知识源,即语义范畴,提高了算法的学习效率和排歧的正确率。通过对6个典型多义词和SENSEVAL3中文语料中20个多义词的词义消歧实验,AdaBoost MH算法获得了较高的开放测试正确率(85.75%)。相似文献

7.

基于向量空间模型中义项词语的无导词义消歧 总被引：22，自引：0，他引：22

鲁松白硕黄雄《软件学报》2002,13(6):1082-1089

有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下,将待消歧多义词与义项词语映射到向量空间中,基于k-NN(k=1)方法,计算二者相似度来实现词义消歧任务.在对10个典型多义词进行词义消歧的测试实验中,采用该方法取得了平均正确率为83.13%的消歧结果. 相似文献

8.

利用上下文信息解决汉语组合型歧义 总被引：1，自引：0，他引：1

冯素琴陈惠明《电脑开发与应用》2007,20(1):23-25

汉语自动分词问题是制约中文信息处理发展的瓶颈之一,歧义切分又是影响分词系统切分精度的重要因素。在对已有方法深入分析的基础上,提出利用上下文信息的消歧策略。结果显示,经多次学习后搭配信息显示的消歧参数逐渐趋于稳定,且消歧准确率有大幅度提高。相似文献

9.

汉语语料的切分标注加工系统 总被引：3，自引：1，他引：3

徐菁张辉陆汝占《计算机工程》2003,29(9):66-68,165

介绍了一个对汉语语料进行切分标注粗加工的系统WegPos。该系统采用前缀码分词算法，用二元语法模型进行词性标注，并利用概率统计、规则、歧义数据库、部分句法分析等多种方法的结合排除分词和标注中产生的歧义。相似文献

10.

一种自组织的汉语组合型歧义消歧方法

冯素琴陈惠明《计算机工程与设计》2007,28(3):737-739,742

组合型歧义切分字段一直是汉语自动分词的难点.用人工校验后的分词语料提供的搭配实例作为组合歧义字段的初始搭配知识,提出使用搭配统计表的多元最大对数似然比进行消歧;继而根据实验确定了歧义字段的上下文窗口、窗口位置区分、权值估计等要素;在此基础上采用自组织方法自动扩充搭配集,使消歧信息趋于稳定;最后,对提出的方法进行了实验,实验表明,该算法能有效提高消歧准确率. 相似文献

11.

Corpus based part-of-speech tagging

Chengyao Lv Huihua Liu Yuanxing Dong Yunliang Chen 《International Journal of Speech Technology》2016,19(3):647-654

In natural language processing, a crucial subsystem in a wide range of applications is a part-of-speech (POS) tagger, which labels (or classifies) unannotated words of natural language with POS labels corresponding to categories such as noun, verb or adjective. Mainstream approaches are generally corpus-based: a POS tagger learns from a corpus of pre-annotated data how to correctly tag unlabeled data. Presented here is a brief state-of-the-art account on POS tagging. POS tagging approaches make use of labeled corpus to train computational trained models. Several typical models of three kings of tagging are introduced in this article: rule-based tagging, statistical approaches and evolution algorithms. The advantages and the pitfalls of each typical tagging are discussed and analyzed. Some rule-based and stochastic methods have been successfully achieved accuracies of 93–96 %, while that of some evolution algorithms are about 96–97 %. 相似文献

12.

Tagging Icelandic text: an experiment with integrations and combinations of taggers

Hrafn Loftsson 《Language Resources and Evaluation》2006,40(2):175-181

We use integrations and combinations of taggers to improve the tagging accuracy of Icelandic text. The accuracy of the best performing integrated tagger, which consists of our linguistic rule-based tagger for initial disambiguation and a trigram tagger for full disambiguation, is 91.80%. Combining five different taggers, using simple voting, results in 93.34% accuracy. By adding two linguistically motivated rules to the combined tagger, we obtain an accuracy of 93.48%. This method reduces the error rate by 20.5%, with respect to the best performing tagger in the combination pool. 相似文献

13.

平滑学习算法在机器翻译消歧中的应用

刘颖《计算机应用与软件》2001,18(11):56-59

机器翻译中,在词性标注和句法语义分析阶段经常会遇到歧义,使用基于统计方法的词汇评分和句法语义评分就是对词性标注和句法语义分析阶段产生的歧义进行消歧,在用统计方法消歧时,经常遇到的一个现象就是数据稀疏问题,本文对词汇评分和句法语义评分遇到数据稀疏现象使用改进的Turing公式来平滑参数,给出平滑算法对词汇评分平滑的处理过程,在实验中给出语料与参数数量,正确率的实验结果。相似文献

14.

基于聚类的类别模糊邮件过滤方法

郎加云胡学钢《计算机系统应用》2010,19(9):147-150

目前各种基于规则的分类方法在电子邮件过滤中起到了良好的效果,在邮件过滤器的训练中,训练集中会存在部分邮件具有邮件类别模糊的现象,如何将训练集中的此类类别界限模糊的邮件提取出来将会对邮件的分类效果有明显提高的作用。提出一种基于聚类的过滤方法,根据界限模糊邮件数据之间的共性特征,对邮件训练集进行聚类。实验表明,与单纯的进行基于规则的分类算法相比,这种方法在各项评价指标上具有优越性。相似文献

15.

面向中文的修辞结构关系分类体系及无歧义标注方法

侯圣峦费超群张书涵《中文信息学报》2019,33(7):20-30

修辞结构理论是一种重要的篇章结构理论,其核心是修辞结构关系。该文基于修辞结构理论,结合中文文本特点,提出面向中文的层次化修辞结构关系分类体系及多元定义。同时,针对标注者遇到的歧义问题,提出了无歧义标注方法。为了便于标注,设计并实现了基于Java图形界面的标注工具RSTTagger,该工具以句子的主谓结构关键词构成的元组作为基本标注单位,自底向上逐级标注,最终标注成一棵完整的修辞结构关系树。为验证标注结果的一致性,选取160篇中文外贸领域语料进行标注,不同标注者同时标注其中50篇,标注一致性达到76.63%。该标注框架可以应用到其他领域语料标注中,已标注的160篇语料可以作为篇章结构理论研究的基础语料库。相似文献

16.

知识库问答系统中实体关系抽取方法研究

下载免费PDF全文

张芳容杨青《计算机工程与应用》2020,56(11):219-224

针对现有的中文开放领域知识库问答系统缺乏对多关系问答的支持,将知识库问答过程分为实体识别、实体关系抽取和答案检索三个步骤,重点讨论了实体关系抽取的实现方法。在实体关系抽取阶段,提出一种基于规则的关系词提取方法抽取问句中的关系词,然后将关系词与知识库中的谓词进行相似度计算,得到关系集合,结合实体识别的结果,将问句转换为具有语义信息的三元组形式。实验结果表明,该方法可以支持多关系问答,并且具有较高的平均F1分数。相似文献

17.

Performance evaluation of score level fusion in multimodal biometric systems

Mingxing He Author Vitae Pingzhi Fan^{Author Vitae} 《Pattern recognition》2010,43(5):1789-1850

In a multimodal biometric system, the effective fusion method is necessary for combining information from various single modality systems. In this paper the performance of sum rule-based score level fusion and support vector machines (SVM)-based score level fusion are examined. Three biometric characteristics are considered in this study: fingerprint, face, and finger vein. We also proposed a new robust normalization scheme (Reduction of High-scores Effect normalization) which is derived from min-max normalization scheme. Experiments on four different multimodal databases suggest that integrating the proposed scheme in sum rule-based fusion and SVM-based fusion leads to consistently high accuracy. The performance of simple sum rule-based fusion preceded by our normalization scheme is comparable to another approach, likelihood ratio-based fusion [8] (Nandakumar et al., 2008), which is based on the estimation of matching scores densities. Comparison between experimental results on sum rule-based fusion and SVM-based fusion reveals that the latter could attain better performance than the former, provided that the kernel and its parameters have been carefully selected. 相似文献

18.

一种混合策略的专利机器翻译系统研究 总被引：2，自引：0，他引：2

下载免费PDF全文

晋耀红《计算机工程与应用》2012,48(4):29-32

针对专利文本翻译中的复杂语句,提出了一种基于混合策略的方法,融合语义分析技术和基于规则的翻译技术,来提高专利翻译的效果。利用语义分析技术,重点解决句子中心动词识别和句子中有嵌套结构存在的名称短语的分析,把语义分析结果输入到基于规则的翻译系统中,用以改善翻译的效果。测试结果表明,融合后的翻译系统,BLEU值提高了9.8%。该方法已经集成到了国家知识产权局的在线汉英机器翻译系统中,有效地提高了专利翻译的效果和翻译效率。相似文献

19.

隐马尔可夫模型在维吾尔语词性标注中的应用

陈鹏古丽拉.阿东别克《数字社区&智能家居》2006,(11)

本文提出了将三阶隐马尔可夫模型运用到维吾尔语词性标注中的方法。运用改进的Baum-Welch方法训练模型参数。并且采用改良的动态规划方法:viterbi算法,找出最优标注序列。相似文献

20.

隐马尔可夫模型在维吾尔语词性标注中的应用

陈鹏古丽拉．阿东别克《数字社区&智能家居》2006,(4):127-128

本文提出了将三阶隐马尔可夫模型运用到维吾尔语词性标注中的方法。运用改进的Baum-Welch方法训练模型参数。并且采用改良的动态规划方法：viterbi算法，找出最优标注序列。相似文献