首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
We present statistical models for morphological disambiguation in agglutinative languages, with a specific application to Turkish. Turkish presents an interesting problem for statistical models as the potential tag set size is very large because of the productive derivational morphology. We propose to handle this by breaking up the morhosyntactic tags into inflectional groups, each of which contains the inflectional features for each (intermediate) derived form. Our statistical models score the probability of each morhosyntactic tag by considering statistics over the individual inflectional groups and surface roots in trigram models. Among the four models that we have developed and tested, the simplest model ignoring the local morphotactics within words performs the best. Our best trigram model performs with 93.95% accuracy on our test data getting all the morhosyntactic and semantic features correct. If we are just interested in syntactically relevant features and ignore a very small set of semantic features, then the accuracy increases to 95.07%.  相似文献   

2.
最大熵模型以其能够较好地包容各种约束信息及与自然语言模型相适应等优点在词性标注研究中取得了良好的效果.因此,将其作为基本框架,提出了一种融合语言特征的最大熵蒙古文词性标注模型.首先,根据蒙古文构词特点及统计分析结果,定义并选取特征模板,利用训练语料提取了大量的候选特征集合,针对错误或者无效的特征通过设置一些规则筛选特征.然后,训练最大熵概率模型参数.实验结果表明,融合蒙古文形态特征的最大熵模型可以较好地标注蒙古文.  相似文献   

3.
面向自然语言信息处理的维吾尔语名词形态分析研究   总被引:2,自引:3,他引:2  
名词是人类语言中的基本词类之一。维吾尔语是一种形态变化很复杂的语言,其中名词是一种形态变化复杂的词类。因此名词的形态分析研究无论在语法研究还是在语言信息处理中都非常重要。本文对维吾尔语名词的形态变化(名词的数、人称、格等语法范畴)进行了形式化的描述和分析。指出了维吾尔语名词的基本形态参数,总结出参数的组配规律并统计了其类型,探索了维吾尔语名词的削尾方法。这些工作将为维吾尔语名词形态处理提供有效的方法和新的思路。  相似文献   

4.
该文针对维吾尔语的音变现象,提出了一种自动还原模型。与以往方法不同的是,此模型中我们把音变现象泛化,先假设维吾尔语中所有语音都有音变现象,从而将还原问题转化为类似于词性标注问题,再利用标注的方法解决了还原操作。在新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上做了实验,还原模块作为维吾尔语词法分析器的一部分,把词法分析器功能的F值从84.1%提高到了91.4%,同时维吾尔语中词缀数目最多、变形情况最复杂的动词词干的还原正确率也达到了88.6%,实际应用中完全可以被接受。  相似文献   

5.
该文提出了一种基于数学形态学的形态插值方法,该方法适用于对于二值图像、灰值图像以及多光谱图像的插值重构,通过形态插值技术将输入图像变换成保持某种特征的插值图像。所提出的方法是对基于测地距离函数和形态中值方法的扩展,以提高插值方法的有效性为目的。该文还从应用的角度对于分割序列图像的插值重建算法进行了研究,所获得的新算法能较好地应用于各种类型图像的插值与形变。  相似文献   

6.
维吾尔语是典型的黏着性语言,其派生能力很强,具有丰富的形态变化,同时遵循语音和谐规律,生成过程中会出现弱化、增音、脱落等音变现象.这些特性决定了维吾尔语词法分析的难点,包括词干提取、发生音变字母的还原以及标注.将维吾尔语词的层次结构引入到词法分析研究中,提出了维吾尔语词法分析的有向图模型,该模型将维吾尔语词法分析描述为有向图结构,图中节点表示词干、词缀及其相应标注,其边表示节点之间的转移或生成概率并将此概率作为候选择优的依据.针对维吾尔语在形态变化过程中发生的音变现象,又提出基于词内字母对齐算法的自动还原模型,该模型将音变现象泛化到每个字母上的假设之下,将还原问题转变成类似于词性标注问题,再利用统计方法进行还原.在对新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上进行的实验中,取得了词干提取正确率为94.7%,词干与各词缀切分并标注的F值达到92.6%的好成绩.  相似文献   

7.
多分辨率形态学目标检测   总被引:3,自引:0,他引:3  
用形态小波变换得到图像的塔式表示,并从最低分辨率到原始分辨率由粗到精地提取目标区域.在每个分辨率上,先应用分水岭变换分割该分辨率下的低频分量(或上一级分辨率得到的标记图),得到一个标记图;再用一个区域搜索策略来更新该标记图.对多类目标的实验结果验证了该算法具有速度快、精度高和对噪声不敏感的优点.  相似文献   

8.
一种灰度形态算子的构造方法   总被引:1,自引:0,他引:1  
提出了采用灰度结构元图像的灰度形态算子的构造方法。所构造的形态算子采用了适合灰度结构元图像与灰度图像间操作的结构,其相应的操作具有较明确的物理解释,从而适合招待灰度图像处理任务。  相似文献   

9.
10.
一种新颖的灰度形态学算子   总被引:3,自引:0,他引:3  
数学形态学方法是非线性图像处理中的一种重要方法,在二值图像处理中已获得了广泛的应用,但在灰度图像处理中的应用却相对有限,文中从形态学算子构造的角度出发,提出了一种具有较强实用能力的灰度形态学算子的构造方法。  相似文献   

11.
通过心理语言学的词汇判断实验范式来研究维吾尔语屈折词和派生词在大脑心理词典中的表征及存储形式。实验一是维吾尔语屈折词的表征及加工研究,实验二是维吾尔语派生词的表征及加工研究。实验一的行为实验结果揭示人脑加工维吾尔语屈折词时需要对它进行形态分析。实验二的行为数据却显示派生词和单语素词的加工过程是相同的。本文实验结果显示维吾尔语派生词、屈折词的加工形式是彼此独立和不同的过程,维吾尔语屈折词是分解加工,而派生词进行整体加工。  相似文献   

12.
一种基于广义形态变换的采样方法   总被引:1,自引:0,他引:1  
段汕  秦前清 《计算机应用》2006,26(8):1838-1841
提出了一种基于集合势的广义形态变换形式。该变换能反映结构元素作用于目标对象的强度,控制对目标对象的过度膨胀或过度腐蚀。在广义形态变换性质研究的基础上所提出的广义形态采样方法,能更好地保留图像的形态信息和边缘信息。测试结果表明,基于广义形态变换的采样方法在提高形态变换效率及保持图像细节信息方面相对于现有的采样方法都有一定程度的改善。  相似文献   

13.
This paper deals with verb-verb morphological disambiguation of two different verbs that have the same inflected form. The verb-verb morphological ambiguity (VVMA) is one of the critical Korean parts of speech (POS) tagging issues. The recognition of verb base forms related to ambiguous words highly depends on the lexical information in their surrounding contexts and the domains they occur in. However, current probabilistic morpheme-based POS tagging systems cannot handle VVMA adequately since most of them have a limitation to reflect a broad context of word level, and they are trained on too small amount of labeled training data to represent sufficient lexical information required for VVMA disambiguation.In this study, we suggest a classifier based on a large pool of raw text that contains sufficient lexical information to handle the VVMA. The underlying idea is that we automatically generate the annotated training set applicable to the ambiguity problem such as VVMA resolution via unlabeled unambiguous instances which belong to the same class. This enables to label ambiguous instances with the knowledge that can be induced from unambiguous instances. Since the unambiguous instances have only one label, the automatic generation of their annotated corpus are possible with unlabeled data.In our problem, since all conjugations of irregular verbs do not lead to the spelling changes that cause the VVMA, a training data for the VVMA disambiguation are generated via the instances of unambiguous conjugations related to each possible verb base form of ambiguous words. This approach does not require an additional annotation process for an initial training data set or a selection process for good seeds to iteratively augment a labeling set which are important issues in bootstrapping methods using unlabeled data. Thus, this can be strength against previous related works using unlabeled data. Furthermore, a plenty of confident seeds that are unambiguous and can show enough coverage for learning process are assured as well.We also suggest a strategy to extend the context information incrementally with web counts only to selected test examples that are difficult to predict using the current classifier or that are highly different from the pre-trained data set.As a result, automatic data generation and knowledge acquisition from unlabeled text for the VVMA resolution improved the overall tagging accuracy (token-level) by 0.04%. In practice, 9-10% out of verb-related tagging errors are fixed by the VVMA resolution whose accuracy was about 98% by using the Naïve Bayes classifier coupled with selective web counts.  相似文献   

14.
该文结合最小上下文构成代价模型,借鉴并利用统计机器翻译的方法,尝试解决蒙古文形态切分问题。基于短语的统计机器翻译形态蒙文切分模型和最小上下文构成代价模型分别对词表词和未登录词进行形态切分。前者选取了短语机器翻译系统中三个常用的模型,包括短语翻译模型、词汇化翻译模型和语言模型,最小上下文构成代价模型考虑了一元词素上下文环境和词缀N-gram上下文环境。实验结果显示 基于短语统计机器翻译形态切分模型对词表词切分,最小上下文构成代价模型对未登录词处理后,总体的切分准确率达到96.94%。此外,词素融入机器翻译系统中后,译文质量有了显著的提高,更进一步的证实了本方法的有效性和实用性。  相似文献   

15.
本文提出了一种带反馈修正的多结构元形态学心电信号QRS波检测算法。首先,采用形态学滤波消除心电信号中的脉冲噪声;接着,基于两种不同宽度的结构元,对滤波后信号进行形态学峰谷提取,获取QRS波波形陡峭信息和幅度信息;然后,根据形态学峰谷提取结果,采用自适应阈值检测法初步定位QRS波;最后,利用估算出的R-R间期对QRS波检测结果进行评估和修正,并反复此评估修正过程直至获得满意结果。经MIT-BIH心律失常数据库验证,本算法具有很好的QRS波检测效果。  相似文献   

16.
带树突结构的形态感知器是用格代数的方法对样本集进行分类的。树突结构目前被认为是实现逻辑运算最基本的自主计算单元,引入树突计算过程的神经元也就更接近于实际的生物神经元,具有很强的计算能力。论文根据树突过程的几何意义,通过用树突输出的方框代替覆盖算法中的“球形领域”,提出一种适于多层形态感知器学习的算法,叫做形态交叉覆盖算法,并在此基础上给出一种带树突结构的多层形态感知器模型。三个著名分类问题的实验结果很好地证明了该模型的有效性。  相似文献   

17.
本文提出的卷积形态变换是一种新的形态变换形式,具有线性卷积的结构和形态变换的性质。这种新的形态变换以乘性结构元素为特征,它不同于具有加性结构元素的普通形态变换,对于它们的性质和结构的研究也是本文的主要工作之一。另一方面的工作是针对卷积形态核提出了一种结构化的自动生成算法。研究表明,卷积形态滤波与卷积积分变换一样,对于图像具有去噪和平滑作用,且在实验效果上具有较通常的形态滤波和线性卷积变换更优的去噪和平滑功能。  相似文献   

18.
基于多尺度彩色形态矢量算子的边缘检测   总被引:21,自引:0,他引:21       下载免费PDF全文
数学形态学在图象处理中已经得到广泛地应用,但传统的形态学常应用于二值图象处理,后来发展应用到灰度图象处理,对于其用于彩色图象处理的研究还不是很多,通过对传统的数学形态学的几何描述,以及对目前形态学在边缘检测中的应用分析,提出了一种新的多尺度的彩色形态矢量边缘检测算子,该方法是利用不同尺度形态边缘检测算子来检测不同尺度下的边缘强度,再对不同尺度下的边缘强度图进行合并,从而得到新的边缘强度图象,利用该算法对实际图象和合成图象进行了实验,将实验结果与传统的边缘检测算法相比较,由于新的多尺度彩色形态矢量算子能检测出更多的细节边缘,因此将更有利于图象的进一步分析处理,同时将实验图象人为地增加噪声后,再利用该算法进行实验,其结果表明,该算法对噪声具有很好的鲁棒性。  相似文献   

19.
李刚  黎燕  黄芳 《计算机仿真》2007,24(9):191-194
图像分割在心室容积计算中起着建开闭,因为它们都是连通成分的变换.然而,属性形态开闭运算更具普遍性,它们描述更一般化的形状特征并且没有形状改变,它们只测试连通成分是否满足某种递增准则,满足的保留,否则移除.将属性形态运算与梯度算子结合,就构成一种强抗噪性的分割方法.将这些运算应用到有噪声的心脏图像的分割,不仅将噪声去除,而且图像的边缘保留完好,取得满意的效果.  相似文献   

20.
Morphological neural networks are based on a new paradigm for neural computing. Instead of adding the products of neural values and corresponding synaptic weights, the basic neural computation in a morphological neuron takes the maximum or minimum of the sums of neural values and their corresponding synaptic weights. By taking the maximum (or minimum) of sums instead of the sum of products, morphological neuron computation is nonlinear before thresholding. As a consequence, the properties of morphological neural networks are drastically different than those of traditional neural network models. In this paper we restrict our attention to morphological associative memories. After a brief review of morphological neural computing and a short discussion about the properties of morphological associative memories, we present new methodologies and associated theorems for retrieving complete stored patterns from noisy or incomplete patterns using morphological associative memories. These methodologies are derived from the notions of morphological independence, strong independence, minimal representations of patterns vectors, and kernels. Several examples are provided in order to illuminate these novel concepts.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号