首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
基于支持向量机的汉语歧义切分算法   总被引:1,自引:0,他引:1  
李蓉 《计算机仿真》2009,26(7):354-357
针对于解决交集型伪歧义字段的切分,提出了一种应用支持向量机的汉语歧义切分方法.歧义切分问题可看为一个模式分类问题,为提高字段处理能力,应用支持向量机方法建立分类模型.先对歧义字段进行特征提取,采用互信息来表示歧义字段.求解过程是一个有教师学习过程,从歧义字段中挑选出一些高频伪歧义字段,人工将其正确切分作为训练样本并代入SVM训练得到一个分类模型.在分类阶段将SVM和KNN相结合构造一个新的分类器,对于待识别歧义字段代入分类器即可得到切分结果.实验证明不仅具有一定的识别准确率,而且可以提高歧义切分速度.  相似文献   

2.
本文提出了一种通过有向图和统计加规则的多层过滤方法来有效解决汉语分词过程中的交集型歧义切分问题,该方法大大提高了切分的正确率。经过六万五千字的开放语料测试,我们统计了其对交集型歧义字段的切分结果,发现该方法对交集型歧义字段的切分正确率为98.43%,以上数据表明该方法在解决汉语交集型歧义字段的问题时是行之有效的。  相似文献   

3.
高频最大交集型歧义切分字段在汉语自动分词中的作用   总被引:50,自引:9,他引:41  
交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619个的覆盖率为59.20% ,且覆盖率受领域变化的影响不大。而其中4,279个为伪歧义型,覆盖率高达53.35%。根据以上分析,我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略,可有效改善实用型非受限汉语自动分词系统的精度。  相似文献   

4.
分析了几种典型的歧义识别方法,结合全切分分词算法提出了OSAIM(Ambiguity Identification Mechanism based on Om-ni-Segmentation)歧义识别机制和DOSAIM(Disposal strategy of OSAIM)歧义处理策略,OSAIM采用全切分算法的思想,用得到的所有切分词汇构建一个歧义矩阵,最后计算矩阵中的歧义字段。OSAIM机制能够识别所有的交集型歧义和组合型歧义,DOSAIM策略能够有效解决全切分分词路径过多和歧义处理结果矛盾的问题。  相似文献   

5.
DENG Fan  YU Bin 《微机发展》2008,18(6):107-110
针对中文中歧义字段对中文处理及理解带来的诸多问题提出了一种基于自然语言理解的中文汉字歧义消除算法。对于交集型歧义和组合型歧义,利用《知网》为主要语义资源,以知识图知识表示方法,通过提出的字段消歧算法,对歧义字段以及上下文的语义进行计算,从而选出正确的句子切分方案,达到消除歧义的目的。经过实验数据表明本算法提高了中文歧义字段歧义切分的正确率。  相似文献   

6.
针对中文中歧义字段对中文处理及理解带来的诸多问题提出了一种基于自然语言理解的中文汉字歧义消除算法.对于交集型歧义和组合型歧义,利用<知网>为主要语义资源,以知识图知识表示方法,通过提出的字段消歧算法,对歧义字段以及上下文的语义进行计算,从而选出正确的句子切分方案,达到消除歧义的目的.经过实验数据表明本算法提高了中文歧义字段歧义切分的正确率.  相似文献   

7.
汉语文本中交集型切分歧义的分类处理   总被引:2,自引:0,他引:2  
自动分词是中文信息处理的基本问题,交集型歧义字段的切分又是中文分词的难点.本文把交集型歧义字段按其宏结构分类,再依据本文提出的4条切分原则,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理,提高了分词的准确性.该分词方法已作为中文网页索引和检索工具被用于网络搜索引擎中.实验效果表明,这一分词系统能够处理某些其它分词系统不能正确划分的实例.  相似文献   

8.
现代汉语通用分词系统中歧义切分的实用技术   总被引:8,自引:0,他引:8  
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则 例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%·  相似文献   

9.
文语转换系统中基于语料的汉语自动分词研究   总被引:9,自引:0,他引:9  
基于一个实际的文语转换系统,介绍了经的一些处理方法,采用了一种改进的最大匹配法,可以切分出所有的交集歧义,提出了一基于统计模型的算法来处理其中的多交集歧义的字段,并用穷举法和一睦简单的规则相结合的方法从实用角度解决多音字的异读问题以及中文姓名的自动识别方法,解决了汉语切分歧义、多音词处理、,中文姓名的自动识别问题,达到实现一文语转换的。  相似文献   

10.
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。其中歧义字段切分是中文自动分词研究中的一个“拦路虎”,是影响分词系统切分精度的主要因素。能够正确切分某一类歧义字段的知识称为分词知识,所有分词知识的集合称为知识库或规则库。本文通过建立交集型歧义字段切分知识库,并采用知识学习的方法来丰富系统的知识,充分利用了知识库中积累的词的二元语法关系、语素构词、句法关系以及上下文等信息,提高了交集型歧义字段的切分精度。  相似文献   

11.
《Real》2003,9(3):179-188
A real-time implementation of an approximation of the support vector machine (SVM) decision rule is proposed. This method is based on an improvement of a supervised classification method using hyperrectangles, which is useful for real-time image segmentation. The final decision combines the accuracy of the SVM learning algorithm and the speed of a hyperrectangles-based method. We review the principles of the classification methods and we evaluate the hardware implementation cost of each method. We present the combination algorithm, which consists of rejecting ambiguities in the learning set using SVM decision, before using the learning step of the hyperrectangles-based method. We present results obtained using Gaussian distribution and give an example of image segmentation from an industrial inspection problem. The results are evaluated regarding hardware cost as well as classification performances.  相似文献   

12.
一种改进的结合K近邻法的SVM分类算法   总被引:2,自引:1,他引:1       下载免费PDF全文
在对支持向量机在超平面附近容易对测试样本造成错分进行研究的基础上,改进了将支持向量机分类和k近邻分类相结合的方法,形成了一种新的分类器.在分类阶段计算待识别样本和最优分类超平面的距离,如果距离差大于给定阈值可直接应用支持向量机分类,否则用最佳距离k近邻分类.数值实验表明,使用支持向量机结合最近邻分类的分类器分类比单独使用支持向量机分类具有更高的分类准确率.  相似文献   

13.
在蚕卵图像计数研究中,传统的方法在计数前需要对粘连蚕卵进行分离。但是蚕卵图像中存在的粘连或者部分重叠现象常常导致分割的不完整,给图像的后续分析处理带来了很大的麻烦。针对这一问题,提出了一种基于网格模型的粘连蚕卵计数方法,该方法利用机器学习的策略有效地避免了分割的过程,使用SVM直接对蚕卵进行计数。另外还提取出一种有效的纹理特征从而提高了SVM输出的准确率。实验将提出的基于网格的计数方法同传统的基于分割的方法比较,结果表明了基于网格计数方法具有良好的鲁棒性和准确性。  相似文献   

14.
图像分割是图像理解和计算机视觉的重要内容.针对单核SVM在进行图像分割过程中不能兼顾分割精度高和泛化性能好的问题,提出一种基于K均值聚类和优化多核SVM的图像分割算法.该算法首先运用K均值聚类算法自动选取训练样本,然后提取其颜色特征和纹理特征作为训练样本的特征属性,并使用其对构造的多核SVM分割模型进行训练,最后用粒子群优化算法对多核核参数、惩罚因子以及核权重系数联合寻优,使生成的多核SVM具有更好的分割性能.实验结果表明,本文方法在有效提取图像目标细节的同时,获得了更高的分割精度,与基于单核的SVM分割模型相比,具有更强的泛化能力.  相似文献   

15.
基于最长次长匹配的方法建立汉语切分路径有向图,将汉语自动分词转换为在有向图中选择正确的切分路径,其中有向图中的节点代价对应单词频度,而边代价对应所连接的两个单词的接续频度;运用改进后Dijkstra最小代价路径算法,求出有向图中路径代价最小的切分路径作为切分结果.在切分歧义的处理上采用分步过滤逐步解消的方法,并引入了基于未知词特征词驱动的机制,对未知词进行了前处理,减少了因未知词的出现而导致的切分错误.实验结果表明,该方法有效地提高了汉语分词的精确率和召回率.  相似文献   

16.
In this article, an innovative classification framework for hyperspectral image data, based on both spectral and spatial information, is proposed. The main objective of this method is to improve the accuracy and efficiency of high-resolution land-cover mapping in urban areas. The spatial information is obtained by an enhanced marker-based minimum spanning forest (MMSF) algorithm. A pixel-based support vector machine (SVM) algorithm is first used to classify the hyperspectral image data, then the enhanced MMSF algorithm is applied in order to increase the accuracy of less accurately classified land-cover types. The enhanced MMSF algorithm is used as a binary classifier. These two classes are the low-accuracy class and remaining classes. Finally, the SVM algorithm is trained for classes with acceptable accuracy. In the proposed approach, namely MSF-SVM, the markers are extracted from the classification maps obtained by both SVM and watershed segmentation algorithms, and are then used to build the MSF. Three benchmark hyperspectral data sets are used for the assessment: Berlin, Washington DC Mall, and Quebec City. Experimental results demonstrate the superiority of the proposed approach compared with SVM and the original MMSF algorithms. It achieves approximately 5, 6, and 7% higher rates in kappa coefficients of agreement in comparison with the original MMSF algorithm for the Berlin, Washington DC Mall, and Quebec City data sets, respectively.  相似文献   

17.
Text classification has been recognized as one of the key techniques in organizing digital data. The intuition that each algorithm has its bias data and build a high performance classifier via some combination of different algorithm is a long motivation. In this paper, we proposed a two-level hierarchical algorithm that systematically combines the strength of support vector machine (SVM) and k nearest neighbor (KNN) techniques based on variable precision rough sets (VPRS) to improve the precision of text classification. First, an extension of regular SVM named variable precision rough SVM (VPRSVM), which partitions the feature space into three kinds of approximation regions, is presented. Second, a modified KNN algorithm named restrictive k nearest neighbor (RKNN) is put forward to reclassify texts in boundary region effectively and efficiently. The proposed algorithm overcomes the drawbacks of sensitive to noises of SVM and low efficiency of KNN. Experimental results compared with traditional algorithms indicate that the proposed method can improve the overall performance significantly.  相似文献   

18.
基于训练样本自动选取的SVM彩色图像分割方法   总被引:1,自引:0,他引:1  
张荣  王文剑  白雪飞 《计算机科学》2012,39(11):267-271
图像分割是模式识别、图像理解、计算机视觉等领域的重要研究内容。基于支持向量机((Support Vcctor Ma- chine, SVM)的方法现已广泛应用于图像分割,但其在训练样本的选取上大多是人工选择,这降低了图像分割的自适 应性,且影响了SVM的分类性能。提出一种基于训练样本自动选取的SVM彩色图像分割方法,算法首先使用模糊 C均值(Fuzzy C-Mcans, FCM)聚类算法自动获取训练样本,然后分别提取图像颜色特征和纹理特征,将其作为SVM 模型训练样本的特征属性进行训练,最后用训练好的分类器对图像进行分割。实验结果表明,提出的方法可取得很好 的分割结果。  相似文献   

19.
针对人脸追踪过程中,基于目标色彩特征的CamShift(continuously adaptive mean-shift)算法受类肤色背景干扰所导致的搜索框偏移及尺寸异常问题,提出了一种结合肤色分割及追踪监测机制的人脸追踪改进算法。在YCbCr色彩空间的Cb、Cr分量内采用非参数肤色分割模型及SVM(support vector machines)构建特定于当前视频序列的联合肤色分割模型,以由粗至细的方式去除视频帧中类肤色背景。随后,在Cr分量内构建CamShift算法色彩直方图并进行人脸追踪。考虑在追踪过程中,当场景或光照强度改变时易出现的联合肤色分割模型及CamShift算法色彩直方图失效问题,采用拉依达准则(pauta criterion)判断追踪窗口内Cr分量均值的异常,当监测到异常值时即判定当前视频帧人脸追踪失败,使用Adaboost(adaptive boosting)算法构建的人脸检测器进行人脸复检并重构CamShift算法色彩直方图及联合肤色分割模型。在OTB-2015目标追踪数据集中进行测试,实验结果表明,所提算法在类肤色背景下相比原始CamShift算法对人脸目标的追踪精度更高;相比近几年的追踪算法则在具有良好追踪精度的同时速度优势明显。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号