首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 984 毫秒
1.
基于类别选择的改进KNN文本分类   总被引:3,自引:0,他引:3  
特征高维性以及算法的泛化能力影响了KNN分类器的分类性能.提出了一种降维条件下基于类别的KNN改进模型,解决了k近邻选择时大类别、高密度样本占优问题.首先使用一种改进的优势率方法进行特征选择,随后使用类别向量对文本类别进行初步判定,最后在压缩后的样本集上使用KNN分类器进行分类.试验结果表明,提出的改进分类模型提高了分类效率.  相似文献   

2.
本文提出了一种改进的KNN分类算法,利用样本集合中同类别样本点间距离都十分接近的特点辅助KNN算法分类.将待分类样本点的K个最近邻样本点分别求出样本点所属类别的类别平均距离和样本点与待分类样本点距离的差值比,如果大于一个阈值,就将该样本点从K个最近邻的样本点中删除,再用此差值比对不同类别的样本点个数进行加权后执行多数投票,来决定待分类样本点所属的类别.改进后的KNN算法提高了分类的精度,并且时问复杂度与传统KNN算法相当.  相似文献   

3.
针对大规模文本的自动层次分类问题,K近邻(KNN)算法分类效率较高,但是对于处于类别边界的样本分类准确度不是很高。而支持向量机(SVM)分类算法准确度比较高,但以前的多类SVM算法很多基于多个独立二值分类器组成,训练过程比较缓慢并且不适合层次类别结构等。提出一种融合KNN与层次SVM的自动分类方法。首先对KNN算法进行改进以迅速得到K个最近邻的类别标签,以此对文档的候选类别进行有效筛选。然后使用一个统一学习的多类稀疏层次SVM分类器对其进行自上而下的类别划分,从而实现对文档的高效准确的分类过程。实验结果表明,该方法在单层和多层的分类数据集上的分类准确度比单独使用其中任何一种要好,同时分类时间上也比较接近其中最快的单个分类器。  相似文献   

4.
类别分配不均匀是实际中常见的分类问题。文章利用基于免疫记忆的分类器—免疫记忆分类器研究该类问题。通过改进人工免疫记忆分类器距离度量方式,发现在比例选择平均距离度量情况下,该种分类器可以很好地解决类别分配不均匀问题。与另一种免疫分类方法AIRS和传统的KNN分类结果比较表明,人工免疫记忆分类器能够解决这类问题,效果好于后两者,为解决该类问题提供了新的思路和方法。  相似文献   

5.
一种新的基于统计的自动文本分类方法   总被引:29,自引:5,他引:29  
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中,互联网和文本库提供了大量经过粗分类的训练文本,但普遍存在样本质量较差的问题,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。  相似文献   

6.
肖辉辉  段艳明 《计算机科学》2013,40(Z11):157-159,187
样本距离机制的定义直接影响到KNN算法的准确性和效率。针对传统KNN算法在距离的定义及类别决定上的不足,提出了利用属性值对类别的重要性进行改进的KNN算法(FCD-KNN)。首先定义两个样本间的距离为属性值的相关距离,此距离有效度量了样本间的相似度。再根据此距离选取与待测试样本距离最小的K个近邻,最后根据各类近邻样本点的平均距离及个数判断待测试样本的类别。理论分析及仿真实验结果表明,FCD-KNN算法较传统KNN及距离加权-KNN的分类准确性要高。  相似文献   

7.
一种采用类相关度优化距离的KNN算法   总被引:1,自引:0,他引:1  
样本距离机制的定义直接影响到KNN算法的准确性和效率.本文提出了一种采用类相关度优化距离的KNN改进算法.将样本特征参数的熵值与样本分布概率的乘积作为特征参数针对分类的相关度,并根据相关度值衡量特征参数对分类影响程度的强弱以计算样本间的距离,解决KNN近邻选择时大类别、高密度样本占优的情况.实验结果表明,提出的采用类相关度优化距离-KNN算法提高了分类性能.  相似文献   

8.
基于属性值信息熵的KNN改进算法   总被引:3,自引:0,他引:3       下载免费PDF全文
为了克服传统KNN算法,距离加权-KNN算法在距离定义及投票方式上的不足,提出了一种基于属性值对类别重要性的改进算法Entropy-KNN。首先定义两个样本间的距离为相同属性值的平均信息熵,此距离可通过重要属性值有效度量样本之间的相似程度,其次算法Entropy-KNN根据上述定义的距离选取与待测试样本距离最小的K个近邻,最后根据各类近邻样本点的平均距离及个数判断待测试样本的类别。在蘑菇数据集上的实验表明,Entropy-KNN算法的分类准确率高于传统KNN算法和距离加权KNN算法。  相似文献   

9.
针对KNN算法在中文文本分类时的两个不足:训练样本分布不均,分类时计算开销大的问题,在已有改进算法的基础上进行了更深入的研究,提出多级分类KNN算法。算法首先引入基于密度的思想对训练样本进行调整,通过样本裁减技术使样本分布更趋于理想的均匀状态,同时计算各类别的类中心向量。在保证类中心向量准确性的前提条件下,使分类阶段的复杂计算提前到分类器的训练过程中。最后一级选用合适的m值(预选类别个数),根据最近邻思想对待分类文本进行所属类别判定。实验结果表明,该算法在不损失分类精度的情况下,不仅降低了计算复杂度,而且显著提高了分类速度。  相似文献   

10.
通过实验对SVM、KNN文本分类算法进行了深入探讨。基于KNN和SVM算法,提出了一种SVM.KNN算法。该算法结合KNN和SVM两种分类器,并通过分类预测概率的反馈和修正来提高分类器性能。在CWT100G中文网页分类测试系统中,对SVM.KNN算法的实际效果进行了测试和算法性能验证。  相似文献   

11.
针对密度峰值聚类算法(The density peak clustering algorithm,DPC)聚类结果受距离阈值dc参数影响较大的问题,提出一种局部密度捕获范围以及利用局部密度信息熵均值进行加权优化的方法(简称为LDDPC),在DPC算法选取到错误的距离阈值dc时,通过对最大密度邻近点的相对距离进行加权,重新获得正确的分类数量和聚类中心。经典数据集的实验结果表明,基于局部密度信息熵均值加权优化能避免 DPC 算法中距离阈值dc对聚类结果的影响,提高分类的正确率。  相似文献   

12.
When classes are nonseparable or overlapping, training samples in a local neighborhood may come from different classes. In this situation, the samples with different class labels may be comparable in the neighborhood of query. As a consequence, the conventional nearest neighbor classifier, such as kappa-nearest neighbor scheme, may produce a wrong prediction. To address this issue, in this paper, we propose a new classification method, which performs a classification task based on the local probabilistic centers of each class. This method works by reducing the number of negative contributing points, which are the known samples falling on the wrong side of the ideal decision boundary, in a training set and by restricting their influence regions. In classification, this method classifies the query sample by using two measures of which one is the distance between the query and the local categorical probability centers, and the other is the computed posterior probability of the query. Although both measures are effective, the experiments show that the second one achieves the smaller classification error. Meanwhile, the theoretical analyses of the suggested methods are investigated, and some experiments are conducted on the basis of both constructed and real datasets. The investigation results show that this method substantially improves the classification performance of the nearest neighbor algorithm.  相似文献   

13.
KNFL算法是近年来在人脸识别领域提出并广泛应用的分类算法,它认为类空间中两点的连线可以比类内的点更能代表类空间的特征。如果仅依据特征线距离来分类,会造成误分。这里为消除类内离群点对分类的影响提出引入加权系数,并结合类中心距的概念提出改进算法,并将其应用到海量文本分类中去。试验结果证明此改进算法能够提高文本分类精度,很好的降低了分类器对训练规模的要求。  相似文献   

14.
张倩  丁友东  蓝建梁  涂意 《计算机工程》2011,37(11):212-214,217
针对人脸特征分类问题,提出一种基于主动形状模型(ASM)和K近邻算法的人脸脸型分类方法。将Hausdorff距离作为K近邻算法的距离函数,利用ASM算法提取待测图像的特征点,对点集进行归一化后计算人脸轮廓特征点与样本库中所有样本点集的Hausdorff距离,根据该距离值,通过K近邻算法实现待测图像的脸型分类。实验结果证明,该方法分类正确率高、速度快、易于实现。  相似文献   

15.
支持向量机分类算法研究   总被引:4,自引:0,他引:4       下载免费PDF全文
支持向量机在处理两类分类问题时,当两类样本混杂严重时会降低分类精度。在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离修剪混淆点,进而提出了一种改进的NN-SVM算法——KCNN-SVM。实验数据表明,KCNN-SVM算法与SVM以及NN-SVM相比,有着更高的分类精度和更快的训练、分类时间。  相似文献   

16.
传统核可能性C均值(KPCM)算法仅考虑类内的紧密性而忽略了类间的距离关系,在对边界模糊的数据进行聚类分析时,会引起因聚类中心距离小或重合引起的边界点误分问题。为解决上述问题,在核可能性C均值基础上引入高维特征空间中的类间极大惩罚项和调控因子[λ],构造了全新的目标函数,称为极大中心间隔的核可能性C均值(MKPCM)聚类算法。该算法通过类间极大惩罚项使类间距离极大化,并利用调控因子[λ]合理控制类间距,较好地避免了类中心间距离小或重合的现象。通过大量的实验证明,算法对于边界模糊的数据聚类效果优于传统的聚类算法;在图像分割的实际应用中,算法也明显优于传统的聚类算法。  相似文献   

17.
TRIMAP算法重新定义了图上距离的表达形式,并用近邻点对的测地距离的误差和作为衡量投影函数好坏的标准,通过这种方法可以较好地找到所需的从高维空间到低维空间转换的媒介,但是这种衡量标准不能很好地表达出TRIMAP中定义的图上距离与投影到低维空间中两点实际距离的对比关系。针对这个不足,采用了一个新的衡量标准表达式,定义一个参数m来代表对比关系,以此来解决这个缺陷,从而更好地获得最佳投影,提高识别率。实验结果表明,在ORL人脸图像的分类识别问题中获得了较好的识别性能。  相似文献   

18.
不平衡数据分类是当前机器学习的研究热点,传统分类算法通常基于数据集平衡状态的前提,不能直接应用于不平衡数据的分类学习.针对不平衡数据分类问题,文章提出一种基于特征选择的改进不平衡分类提升算法,从数据集的不同类型属性来权衡对少数类样本的重要性,筛选出对有效预测分类出少数类样本更意义的属性,同时也起到了约减数据维度的目的.然后结合不平衡分类算法使数据达到平衡状态,最后针对原始算法错分样本权值增长过快问题提出新的改进方案,有效抑制权值的增长速度.实验结果表明,该算法能有效提高不平衡数据的分类性能,尤其是少数类的分类性能.  相似文献   

19.
基于特征空间聚类的二叉树支持向量机分类算法   总被引:1,自引:1,他引:0  
采用数据挖掘中聚类分析的类距离定义,在高维特征空间中,计算各类别间的最短距离,以最短距离作为该类与其他类的距离,提出了一种基于聚类-二叉树支持向量机分类算法。该算法能够简化计算,同时通过类距离比较实现了对类距离最大者的优先分离,实验结果表明该算法具有一定的优越性。  相似文献   

20.
KNN是最著名的模式识别统计学方法之一。它是一种无参数分类方法,由于其分类的简单有效性,因此得到较为广泛的应用。但是对KNN分类系统的全面评价还有待进一步研究。提出的改进加权KNN算法相比之下具有更高和更加稳定的识别率。因为它在经典KNN算法基础上增加加权距离和类间相似度信息,比经典KNN这种单纯依靠投票的分类方法更加可靠,在分类识别研究中更具有研究和应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号