共查询到19条相似文献,搜索用时 234 毫秒
1.
采用一种基于混合统计模型的方法来实现中文基本名词短语识别。首先简要分析目前的研究现状,明确中文Base NP识别的任务,然后采用以基于转换的标注和条件随机域模型为底层,支持向量机模型为高层的混合统计模型来进行中文BaseNP的识别。在ACE2005中文语料上的实验表明,F值比使用单一模型提高了1.37%,达到了88.67%,能提高中文基本名词短语的识别性能。 相似文献
2.
3.
该文提出一种基于语言知识评价的分类器集成方法,利用自动获得的搭配资源和人工评价规则,融合了基于支持向量机的最长名词短语识别结果和基于条件随机场的归约识别结果,进一步基于确定性规则有针对性地识别了分类器易出错的特殊结构,提高了对连续动词介词和连续名词造成的边界歧义的识别能力。实验取得了89.30%的正确率和89.62%的召回率,多词结构F1值较归约方法提高了0.75%。 相似文献
4.
针对中文问题分类的中心词识别不准确的问题, 提出了一种基于条件随机场(CRF)和错误驱动学习相结合的识别方法。该方法采用CRF模型对问题的中心词进行初始标注, 依据词的上下文信息用错误驱动的学习方法对其标注结果进行纠正。在训练有序规则的过程中, 为了减少训练时间, 结合中心词的特点对错误驱动算法进行了改进。实验结果表明, 该方法在一定程度上提高了中心词的标注精度, 达到88%。 相似文献
5.
谭建辉 《计算机工程与设计》2012,33(4):1542-1546
为进一步提高红外步态识别精度,构建了一种多分类器融合识别新模型,在根据各单分类器识别输出值构建度量向量的基础上,进行基于粗糙集支持向量机的多分类器融合识别.通过在Matlab7.5平台利用中科院红外步态库进行识别仿真实验,获得识别率和累积匹配分值的实验数据及对比结果.实验结果表明,基于粗糙集支持向量机的多分类器融合识别模型比单分类器在识别率方面有大幅度提高,识别性能理想,识别精度高. 相似文献
6.
藏语句法功能组块分析旨在识别出藏语句子的句法成分,为后续句子级深入分析提供支持。根据藏语的语言特点,该文在藏语句法功能组块描述体系基础上,提出基于错误驱动学习策略的藏语功能组块边界识别方法。具体思路为,首先基于条件随机场(Conditional Random Fields,CRFs)识别组块,然后分别基于转换规则的错误驱动学习(Transformation-based Error-driven Learning,TBL)及基于新特征模板的CRFs错误驱动学习进行二次识别,并对初次结果进行校正,F值分别提高了1.65%、 8.36%。最后通过实验分析,进一步将两种错误驱动学习机制融合,在18073词级的藏语语料上开展实验,识别性能进一步提高,准确率、召回率与F值分别达到94.1%、94.76%与94.43%,充分验证了本文提出方法的有效性。 相似文献
7.
8.
基于支持向量机的遥感图像舰船目标识别方法 总被引:2,自引:0,他引:2
针对高分辨率遥感图像舰船目标识别问题,提出了一种基于支持向量机的舰船目标分类方法。支持向量机(SVM)是一类新型机器学习方法,基于结构风险最小化归纳原则,具有出色的学习能力。与传统的方法相比,支持向量机不但结构简单,而且技术性能特别是泛化能力明显提高。该文简要介绍了有关统计学习理论和支持向量机算法,将支持向量机应用于遥感图像舰船目标识别,并同传统的舰船识别方法进行了相关的对比实验,实验结果说明本文提出的分类器在识别性能上明显优于其它传统分类器,具有更高的识别性能率。 相似文献
9.
在电力系统中,利用图像识别技术对没有数据传送接口的数字仪表进行识别有利于系统自动化水平的提高和安全运行。文章介绍了图像处理过程和数字仪表显示值的识别方法,阐述了支持向量机方法的基本原理,分别采用一对多和一对一的策略方法组合多个二值分类器解决了10类数字的识别问题,并利用这两种多分类器对仪表显示值进行了识别。最后,比较了支持向量机方法和其它方法的识别结果。实验结果表明,支持向量机方法具有更高的识别率。 相似文献
10.
11.
基于SVM的组块识别及其错误驱动学习方法 总被引:1,自引:0,他引:1
给出了一种错误驱动学习机制与SVM相结合的汉语组块识别方法。该方法在SVM组块识别的基础上,对SVM识别结果中的错误词语序列的词性、组块标注信息等进行分析,获得候选校正规则集;之后按照阈值条件对候选集进行筛选,得到最终的校正规则集;最后应用该规则集对SVM的组块识别结果进行校正。实验结果表明,与单独采用SVM模型的组块识别相比,加入错误驱动学习方法后,组块识别的精确率、召回率和F值均得到了提高。 相似文献
12.
该文提出了一种基于CRFs的分布式策略及错误驱动的方法识别汉语组块。该方法首先将11种类型的汉语组块进行分组,结合CRFs构建不同的组块识别模型来识别组块;之后利用基于CRFs的错误驱动技术自动对分组组块进行二次识别;最后依据各分组F值大小顺序处理类型冲突。实验结果表明,基于CRFs的分布式策略及错误驱动方法识别汉语组块是有效的,系统开放式测试的精确率、召回率、F值分别达到94.90%、91.00%和92.91%,好于单独的CRFs方法、分布式策略方法及其他组合方法。 相似文献
13.
Co-training机器学习方法在中文组块识别中的应用 总被引:6,自引:0,他引:6
采用半指导机器学习方法co2training 实现中文组块识别。首先明确了中文组块的定义,co-training 算法的形式化定义。文中提出了基于一致性的co-training 选取方法将增益的隐马尔可夫模型(Transductive HMM) 和基于转换规则的分类器(fnTBL) 组合成一个分类体系,并与自我训练方法进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识别,实验结果要比单纯使用小规模的树库语料有所提高,F 值分别达到了85134 %和83141 % ,分别提高了2113 %和7121 %。 相似文献
14.
名词短语识别在句法分析中有着重要的作用,而英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。研究英语功能名词短语的自动识别,则将名词短语的结构消歧问题转化成名词短语的识别问题。基于名词短语在小句中的语法功能来确定名词短语的边界,选择商务领域语料,采用了细化词性标注集和条件随机域模型结合语义信息的方法,识别了名词短语的边界和句法功能。在预处理基于宾州树库细化了词性标注集,条件随机域模型中加入语义特征主要用来识别状语类的名词短语。实验结果表明,结合金标准词性实验的F值达到了89.04%,改进词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。将功能名词短语识别信息应用到NiuTrans统计机器翻译系统,英汉翻译质量略有提高。 相似文献
15.
与基于Voting方法的组合分类器相比,提出基于Stacking算法的多分类器组合方法.通过构造一个两层的叠加式框架结构,将4种分类器(fnTBL,SNoW,SVM,MBL)进行了组合,并融合各种可能的上下文信息作为各层分类器的输入特征向量,在中文组块识别中取得了较好的效果.实验结果表明.组合后的分类器无论在准确率还是召回率上都有所提高,在哈尔滨工业大学树库语料的测试下达到了F=93.64的结果. 相似文献
16.
汉语组块分析是中文信息处理领域中一项重要的子任务.在一种新的结构化SVMs(support vectormachines)模型的基础上,提出一种基于大间隔方法的汉语组块分析方法.首先,针对汉语组块分析问题设计了序列化标注模型;然后根据大间隔思想给出判别式的序列化标注函数的优化目标,并应用割平面算法实现对特征参数的近似优化训练.针对组块识别问题设计了一种改进的F1 损失函数,使得F1损失值能够依据每个句子的实际长度进行相应的调整,从而能够引入更有效的约束不等式.通过在滨州中文树库CTB4 数据集上的实验数据显示,基于改进的F1 损失函数所产生的识别结果优于Hamming 损失函数,各种类型组块识别的总的F1 值为91.61%,优于CRFs(conditional random fields)和SVMs 方法. 相似文献
17.
组块分析的主要任务是语块的识别和划分,它使句法分析的任务在某种程度上得到简化。针对长句子组块分析所遇到的困难,该文提出了一种基于分治策略的组块分析方法。该方法的基本思想是首先对句子进行最长名词短语识别,根据识别的结果,将句子分解为最长名词短语部分和句子框架部分;然后,针对不同的分析单元选用不同的模型加以分析,再将分析结果进行组合,完成整个组块分析过程。该方法将整句分解为更小的组块分析单元,降低了句子的复杂度。通过在宾州中文树库CTB4数据集上的实验结果显示,各种组块识别结果平均F1值结果为91.79%,优于目前其他的组块分析方法。 相似文献
18.
基于SVM的中文组块分析 总被引:20,自引:5,他引:20
基于SVM(support vector machine)理论的分类算法,由于其完善的理论基础和良好的实验结果,目前已逐渐引起国内外研究者的关注。和其他分类算法相比,基于结构风险最小化原则的SVM在小样本模式识别中表现较好的泛化能力。文本组块分析作为句法分析的预处理阶段,通过将文本划分成一组互不重叠的片断,来达到降低句法分析的难度。本文将中文组块识别问题看成分类问题,并利用SVM加以解决。实验结果证明,SVM算法在汉语组块识别方面是有效的,在哈尔滨工业大学树库语料测试的结果是F=88.67%,并且特别适用于有限的汉语带标信息的情况。 相似文献
19.
汉语基本短语的自动识别 总被引:20,自引:10,他引:20
本文应用基于实例的MBL(Memory-Based Learning)学习方法,对汉语中较常见的9种基本短语的边界及类别进行识别,并利用短语内部构成结构和词汇信息对预测中出现的边界歧义和短语类型歧义进行了排歧处理。实验中还比较了在特征向量中加入词汇信息与否对实验结果的影响。实验取得了比较令人满意的结果:对这9种基本短语的识别正确率达到95.2%;召回率达到93.7%。 相似文献