首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
哈萨克语动词短语自动识别研究与实现   总被引:1,自引:0,他引:1  
由于哈萨克语基本动词短语Kz Base VP的组成结构比较复杂,并且存在歧义情况和训练语料规模不够大等问题,所以既不能直接使用基于规则的方法,又不能直接使用基于统计的方法来进行处理。所以提出了一种规则与最大熵相结合的方法对哈萨克语基本动词短语(Kz Base VP)进行识别。在该混合策略系统中,根据专属Kz Base VP的特点构建了Kz Base VP搭配规则集,通过规则集对无歧义的Kz Base VP进行标注,其正确率为85.43%;运用基于统计的最大熵模型对存在歧义的Kz Base VP进行识别,根据哈萨克语的单词、词性、词缀和上下文信息等来设计最大熵模型的特征模板,并对模型进行了改进,在解码中选取概率最大的前n个上下文信息分别加入到下一个VP的特征向量中,以此类推直至文本结束,最终选出一条概率最优的VP标注。实验证明,在封闭和开发测试条件下对基本动词短语的识别准确率分别为97.23%和93.22%。  相似文献   

2.
搭配是汉语自动句法分析的重要知识源,而动词是句法分析的核心和前提。通过对已标注真实文本的分析,构造了动词搭配对的上下文变量信息特征模板,给出利用最大熵方法抽取动词—动词搭配,对待测的1 000句汉语句子应用最大熵方法自动识别出搭配,其中封闭测试抽取正确率为85.6%,召回率达到70.6%。  相似文献   

3.
基于条件随机场的汉语动宾搭配自动识别   总被引:3,自引:1,他引:2  
该文提出一种基于机器自动学习的统计模型条件随机场的方法用于汉语动宾搭配的自动识别。实验比较了两种分词与词性标记集下的识别效果,并增加了词性筛选准则作为优化处理。在特征选择上,考察了动词次范畴特征、上下文特征以及它们之间的组合特征的不同实验结果。综合实验结果,基于树库分词和词性标记的最好结果F值是87.40%,基于北京大学标准的分词和词性标记的最好结果F值是74.70%。实验表明,条件随机场模型在词语搭配实例自动识别方面有效可行。  相似文献   

4.
该文针对最大熵原理只能利用上下文中的显性统计特征构建语言模型的特点,提出了采用隐最大熵原理构建汉语词义消歧模型的方法。在研究了《知网》中词语与义原之间的关系之后,把从训练语料获取的文本上下文中的词语搭配信息转换为义原搭配信息,实现了基于义原搭配信息的文本隐性语义特征提取方法。在结合传统的上下文特征后,应用隐最大熵原理进行文本中多义词的词义消歧。实验结果表明,采用文中所提方法对十个多义动词进行词义消歧,正确率提高了约4%。  相似文献   

5.
动词细分类和词性标注有些类似,它是在词性标注基础上对其中的动词进行更细致的类别标注。根据动词细分类自身的特点,提出了一种改进的隐马尔科夫模型的方法进行动词类别的自动划分,再通过与最大熵的方法进行比较,证明这种方法取得了较高的准确率。  相似文献   

6.
针对以往凭经验给出的搭配强度、离散度、均值、Z值的阈值等不足,利用统计方法计算动词和出现在其后的动词之间的关联程度,以自动获取动词与动词搭配。利用定量分析的方法对于不同的语料规模,以及搭配评价指标间的关系,给出了确定的阈值范围,为后续自动建立动词词语搭配知识库,提供了进一步研究的基础。  相似文献   

7.
词性标注是自然语言理解中很长期的问题,但对于大词性标注集的词性标注,它的标注精度还很低.为此我们应用隐含马尔可夫方法(HMM)和最大熵方法对大词性标注集的词性标注问题进行了研究,并在此基础上提出了关于词性标注的最新方法--对数线性模型,以此来提高词性标注精度.此次实验分别在运用HMM模型时,提出了新的光滑算法;在运用最大熵模型上,集成了详细的局部和远距离的上下文特征信息;在对数线性模型中,集成了HMM模型和最大熵模型,并进行了对比.结果表明综合了多源信息的对数线性模型标注精度迭81.52%,取得了比传统的HMM模型更好的结果.  相似文献   

8.
基于最大熵方法的汉语词性标注   总被引:5,自引:0,他引:5  
最大熵模型的应用研究在自然语言处理领域中受到关注,文中利用语料库中词性标注的上下文信息建立基于最大熵方法的汉语词性系统。研究的重点在于其特征的选取,因为汉语不同于其它语言,有其特殊性,所以特征的选取上与英语有差别。实验结果证明该模型是有效的,词性标注正确率达到97.34%。  相似文献   

9.
动词与动词搭配方法的研究   总被引:1,自引:0,他引:1  
搭配是汉语自动句法分析的重要环节,而动词是句法分析的核心。论文面向中文信息处理,通过对真实文本的统计分析归纳了搭配自动获取规则,结合统计模型,研究了动词-动词搭配中各关系类型的分布特征以及搭配词语的位置分布特征,在此基础上成功地抽取出所选语料中的动词—动词搭配。其中抽取正确率为75%,召回率为64%。  相似文献   

10.
方明  刘培玉 《计算机应用研究》2011,28(10):3714-3716
在分析酒店评论文本倾向性过程中,针对某些评价词语所产生的歧义性问题,提出一种基于最大熵的评价搭配识别的方法。该方法通过构建极性词表,挖掘出评价词语类别作为语义特征,将其与词、词性、距离、否定词特征结合构成最大熵的复合模板,采用最大熵模型进行评价搭配识别。实验结果证明,采用构建的最大熵复合模板进行评价搭配识别具有较高的准确率和识别性能。  相似文献   

11.
该文研究了汉语框架自动识别中的歧义消解问题,即对给定句子中的目标词,基于其上下文环境,从现有的框架库中,为该目标词自动标注一个合适的框架。该文将此任务看作分类问题,使用最大熵建模,选用词、词性、基本块、依存句法树上的若干特征,并使用开窗口技术和BOW策略,以目前汉语框架语义知识库中的88个词元的2 077条例句为训练、测试语料,进行了3-fold交叉验证实验,最好结果取得69.28%的精确率(Accuracy)。  相似文献   

12.
最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。  相似文献   

13.
In this work, we have developed a speech mode classification model for improving the performance of phone recognition system (PRS). In this paper, we have explored vocal tract system, excitation source and prosodic features for development of speech mode classification (SMC) model. These features are extracted from voiced regions of a speech signal. In this study, conversation, extempore, and read speech are considered as three different modes of speech. The vocal tract component of speech is extracted using Mel-frequency cepstral coefficients (MFCCs). The excitation source features are captured through Mel power differences of spectrum in sub-bands (MPDSS) and residual Mel-frequency cepstral coefficients (RMFCCs) of the speech signal. The prosody information is extracted from pitch and intensity. Speech mode classification models are developed using above described features independently, and in fusion. The experiments carried out on Bengali speech corpus to analyze the accuracy of the speech mode classification model using the artificial neural network (ANN), naive Bayes, support vector machines (SVMs) and k-nearest neighbor (KNN). We proposed four classification models which are combined using maximum voting approach for optimal performance. From the results, it is observed that speech mode classification model developed using the fusion of vocal tract system, excitation source and prosodic features of speech, yields the best performance of 98%. Finally, the proposed speech mode classifier is integrated to the PRS, and the accuracy of phone recognition system is observed to be improved by 11.08%.  相似文献   

14.
研究了英语语法中冠词错误的计算机自动纠正. 首先对冠词使用的错误进行定义分类, 并考虑到可能出现冠词缺失的情况, 通过采用基于最大熵模型的分类器, 选择包含上下文、上下文词性、短语结构等特征, 在训练集上进行模型预的训练, 然后使用模型对于输入句子进行预测并纠正存在的使用错误. 在NUCLE语料的实验中, 给出了语料处理、模型特点、训练语料的大小对于测试集效果的影响, 并且比较了自然语言处理中非常通用的朴素贝叶斯模型的结果, 还根据英语语法中存在的错误特点对模型进行改进, 最后在测试数据达到35.48%的F值, 相较于CoNLL2013的shared task中最好结果有小幅提升.  相似文献   

15.
针对实际应用中人脸图像存在局部遮挡的情况经常发生,会造成识别率下降和鲁棒性降低。因此针对目前存在的这种情况,提出一种基于改进生成式对抗网络(Generative Adversarial Network,GAN)的表情识别模型,先利用由自动编码器构成的生成器和两个鉴别器(局部鉴别器和全局鉴别器)的对抗学习对遮挡人脸图像填补修复,再在全局鉴别器后面添加多分类层,利用全局鉴别器的部分卷积层并在后面添加多分类层构成表情分类器进行表情识别。最后通过实验进行了不同遮挡面积的人脸图像在填补前后表情识别率的对比和不同算法的识别率对比,实验结果证明识别率会更高,尤其提高了人脸大面积遮挡的识别率。  相似文献   

16.
最大熵模型以其能够较好地包容各种约束信息及与自然语言模型相适应等优点在词性标注研究中取得了良好的效果.因此,将其作为基本框架,提出了一种融合语言特征的最大熵蒙古文词性标注模型.首先,根据蒙古文构词特点及统计分析结果,定义并选取特征模板,利用训练语料提取了大量的候选特征集合,针对错误或者无效的特征通过设置一些规则筛选特征.然后,训练最大熵概率模型参数.实验结果表明,融合蒙古文形态特征的最大熵模型可以较好地标注蒙古文.  相似文献   

17.
基于最大熵模型的观点句主观关系提取   总被引:4,自引:0,他引:4       下载免费PDF全文
提出一种提取中文观点句中评价对象和评价词主观匹配关系的方法。分析观点句中评价词和评价对象的词性、词语位置,通过句法分析获取语义特征,将2类特征应用于最大熵模型,提取观点句的主观关系。实验结果证明,与取距离评价词语最近的词作为评价对象的Baseline方法相比,该方法大幅度提高了准确率和F测试值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号