首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 406 毫秒
1.
为有效提高传统KNN算法(K最近邻算法)在海量数据的分类效率,分析传统KNN算法的分类过程,提出基于K-Medoids聚类的改进KNN算法。利用K-Medoids算法对文本训练集进行聚类,把文本训练集分成相似度较高的簇;根据待分类文本与簇的相对位置,对文本训练集进行裁剪,解决传统KNN算法在文本训练集过大时速度慢的问题。分析与实验结果表明,该裁剪方法能够合理有效地裁剪文本训练集,提高了KNN算法的运行效率和分类能力。  相似文献   

2.
K最邻近(KNN)算法对不平衡数据集进行分类时分类判决总会倾向于多数类.为此,提出一种加权KNN算法GAK-KNN.定义新的权重分配模型,综合考虑类间分布不平衡及类内分布不均匀的不良影响,采用基于遗传算法的K-means算法对训练样本集进行聚类,按照权重分配模型计算各训练样本的权重,通过改进的KNN算法对测试样本进行分类.基于UCI数据集的大量实验结果表明,GAK-KNN算法的识别率和整体性能都优于传统KNN算法及其他改进算法.  相似文献   

3.
针对KNN算法的分类效率随着训练集规模和特征维数的增加而逐渐降低的问题,提出了一种基于Canopy和粗糙集的CRS-KNN(Canopy Rough Set-KNN)文本分类算法。算法首先将待处理的文本数据通过Canopy进行聚类,然后对得到的每个类簇运用粗糙集理论进行上、下近似分割,对于分割得到的下近似区域无需再进行分类,而通过上、下近似作差所得的边界区域数据需要通过KNN算法确定其最终的类别。实验结果表明,该算法降低了KNN算法的数据计算规模,提高了分类效率。同时与传统的KNN算法和基于聚类改进的KNN文本分类算法相比,准确率、召回率和[F1]值都得到了一定的提高。  相似文献   

4.
基于KNN算法的医药信息文本分类系统的研究   总被引:1,自引:0,他引:1  
针对目前医药信息文本分类领域的现状,设计并实现了一种基于KNN算法的医药信息文本分类系统.该系统充分利用了向量空间模型在表示方法上的优势和快速KNN算法的特点,并采用逆向最大匹配分词方法进行分词,可有效提高医药信息分类的准确性和信息处理效率.此外,构建了一个医药信息数据集,该数据集包含582篇医药类文本,其中训练文本433篇,测试文本149篇,并在该数据集上对医药信息文本分类系统进行了测试,得到了74.83%的F1值.实验证明,该系统可以较好地实现医药信息文本分类.  相似文献   

5.
作为数据挖掘领域十大算法之一,K-近邻算法(K-Nearest-Neighbor,KNN)因具有非参数、无需训练时间、简单有效等特点而得到广泛应用。然而,KNN算法在面对高维的大训练样本集时,分类时间复杂度高的问题成为其应用的瓶颈。另外,因训练样本的类分布不均匀而导致的类不平衡问题也会影响其分类性能。针对这两个问题,提出了一种基于冗余度的KNN分类器训练样本裁剪新算法(简记为RBKNN)。RBKNN通过引入训练样本集预处理过程,对每个训练样本进行冗余度计算,并随机裁剪掉部分高冗余度的训练样本,从而达到减小训练样本规模、均衡样本分布的目的。实验结果表明,RBKNN可在保持或改善分类精度的前提下显著提升KNN的分类效率。  相似文献   

6.
传统深度神经网络剪枝方法往往以预训练模型为初始网络并需要在剪枝后进行微调。受到近年来edgepopup等基于随机初始化网络的剪枝算法优异性能的启发,提出了一种基于稀疏二值规划的随机初始化网络剪枝算法。该算法将剪枝训练过程建模为一个稀疏二值约束优化问题。其核心思想是利用稀疏二值规划来学习一个二值掩膜,利用该掩膜可以从随机初始化的神经网络上裁剪出一个未经训练却性能良好的稀疏网络。与之前基于随机初始化网络的剪枝算法相比,该算法找到的稀疏网络在多个稀疏度下都具有更好的分类泛化性能。与edge-popup算法相比,在ImageNet数据集分类任务中,模型在稀疏度为70%时精度提升7.98个百分点。在CIFAR-10数据集分类任务中,模型在稀疏度为50%时精度提升2.48个百分点。  相似文献   

7.
KNN算法是一种简单、有效且易于实现的分类算法,可用于类域较大的分类。近年来对KNN算法的研究偏向于静态大数据集,不过,在越来越多的情况下要用KNN算法在线实时处理流数据。考虑到流式数据流量大,连续且快速,不易存储和恢复等特性,以及流处理系统Storm对流数据处理具有实时性、可靠性的特点,提出了基于Storm的流数据KNN分类算法,该算法首先对整个样本集进行划分,形成多个片集,然后计算出待分类向量在各片集上的[K]近邻,最后再将所有片集[K]近邻归约得出整体[K]近邻,实现待分类向量的分类。实验结果表明,基于Storm的流数据KNN分类算法能够满足大数据背景下对流数据分类的高吞吐量、可扩展性、实时性和准确性的要求。  相似文献   

8.
针对K近邻(KNN)方法处理大数据集的效率问题进行了研究,提出了一种基于Spark框架的分布式精确模糊KNN分类算法, 创新性地将Spark框架分布式map和reduce过程与模糊KNN结合。首先对不同分区中训练样本类别信息进行模糊化处理,得到类别隶属度,将训练集转换为添加类隶属度的模糊训练集;然后使用KNN算法对先前计算的类成员测试集计算得到◢k◣个最近邻;最后通过距离权重进行分类。针对百万级大数据集样本的实验,以及与其他算法的对比实验表明,所提算法是可行的和有效的。  相似文献   

9.
基于K-SVD的最大似然稀疏表示体域网动作分类算法   总被引:1,自引:0,他引:1  
为有效提高体域网动作分类性能,本文提出了一种基于K-SVD的最大似然稀疏表示体域网动作分类算法. 该算法首先基于K-SVD优化学习算法,将不同动作模式训练样本按其所属类别分组优化训练,避免各类样本数据训练时相互干扰,得到不同动作模式类别所属的子字典,然后将其拼合构成一个完整字典,准确稀疏表示测试样本,最后基于最大似然稀疏模型准确估计稀疏表示系数残差,并得到测试样本所属类别. 实验结果表明,本文所提算法能够获得最优字典,基于最大似然稀疏表示可准确估计测试动作样本稀疏表示残差. 所提算法识别率明显优于传统稀疏表示动作分类算法,可有效提高体域网动作模式分类性能.  相似文献   

10.
不平衡入侵检测数据的代价敏感分类策略*   总被引:1,自引:0,他引:1  
提出一种新的预处理算法AdaP,不仅有效避免了数据过度拟合,且可独立使用。针对不平衡的入侵检测数据集,引入代价敏感机制,基于权值矩阵最小化误分类代价的思想,去除部分训练密集区域、拓展稀疏区域的同时再过滤噪声,最终实现了AdaP算法与AdaCost算法相结合的策略。实验证明此策略充分体现了提升算法有效提升前端弱分类算法分类精度和预处理算法平衡稀有类数据的优势,且可有效提高不平衡入侵检测数据的分类性能。  相似文献   

11.
陈思宝  赵令  罗斌 《自动化学报》2014,40(10):2295-2305
为了利用核技巧提高分类性能, 在局部保持的稀疏表示 字典学习的基础上, 提出了两种核化的稀疏表示字典学习方法. 首先, 原始训练数据被投影到高维核空间, 进行基于局部保持的核稀疏表示字典学习; 其次, 在稀疏系数上强加核局部保持约束, 进行基于核局部保持的核稀疏表示字典学习. 实验结果表明, 该方法的分类识别结果优于其他方法.  相似文献   

12.
为解决多标记数据的分类问题,提出基于稀疏表示的多标记学习算法。首先将待分类样本表示为训练样本集上的稀疏线性组合,基于l1-最小化方法求得最稀疏的系数解。然后利用稀疏系数的判别信息提出一个计算待分类样本对各标记的隶属度的方法。最后根据隶属度对标记进行排序,进而完成分类。在Yeast基因功能分析、自然场景分类和web页面分类上的实验表明,该算法能够有效解决多标记数据的分类问题,与其它方法相比取得更好的结果。  相似文献   

13.
Though sparse representation (Wagner et al. in IEEE Trans Pattern Anal Mach Intell 34(2):372–386, 2012, CVPR 597–604, 2009) can perform very well in face recognition (FR), it still can be improved. To improve the performance of FR, a novel sparse representation method based on virtual samples is proposed in this paper. The proposed method first extends the training samples to form a new training set by adding random noise to them and then performs FR. As the testing samples can be represented better with the new training set, the ultimate classification obtained using the proposed method is more accurate than the classification based on the original training samples. A number of FR experiments show that the classification accuracy obtained using our method is usually 2–5 % greater than that obtained using the method mentioned in Xu and Zhu (Neural Comput Appl, 2012).  相似文献   

14.
针对人脸训练集中的样本存在不同程度的变换(比如平移,旋转,缩放等),导致传统的基于稀疏表示的分类算法(SRC)、基于协同表示的分类算法(CRC_RLS)在分类时精精度降低。针对这些问题, 提出了一种基于一阶和二阶信息的图像表示分类算法(SRC_FSD),这种方法通过测试图像的像素值是由对应训练图像的邻近像素值图像的重建而成的, 利用泰勒公式,考虑了一阶和二阶信息, 目的是消除变换对图像造成的影响,从而提高测试样本的分类精度。最后在Extended Yale B和AR人脸数据集上进行了不同维度下样本的对比实验,实验结果表明该方法具有很好的鲁棒性,有效的提高了人脸识别率。  相似文献   

15.
Texture classification is one of the most important tasks in computer vision field and it has been extensively investigated in the last several decades. Previous texture classification methods mainly used the template matching based methods such as Support Vector Machine and k-Nearest-Neighbour for classification. Given enough training images the state-of-the-art texture classification methods could achieve very high classification accuracies on some benchmark databases. However, when the number of training images is limited, which usually happens in real-world applications because of the high cost of obtaining labelled data, the classification accuracies of those state-of-the-art methods would deteriorate due to the overfitting effect. In this paper we aim to develop a novel framework that could correctly classify textural images with only a small number of training images. By taking into account the repetition and sparsity property of textures we propose a sparse representation based multi-manifold analysis framework for texture classification from few training images. A set of new training samples are generated from each training image by a scale and spatial pyramid, and then the training samples belonging to each class are modelled by a manifold based on sparse representation. We learn a dictionary of sparse representation and a projection matrix for each class and classify the test images based on the projected reconstruction errors. The framework provides a more compact model than the template matching based texture classification methods, and mitigates the overfitting effect. Experimental results show that the proposed method could achieve reasonably high generalization capability even with as few as 3 training images, and significantly outperforms the state-of-the-art texture classification approaches on three benchmark datasets.  相似文献   

16.
齐斌 《计算机应用研究》2020,37(8):2381-2385,2408
针对基于稀疏表示的分类算法存在分类限制和计算复杂性等问题进行了研究。首先,改进了加权局部线性KNN文本特征表示方法和分类算法,通过对表示系数加权使其更加稀疏,引入非负约束以规避表示系数出现负的噪声干扰;其次,给出了分类器设计和算法的收敛性证明;最后,通过实验对比得出模型中各参数的优势值域。实验结果表明,改进后的算法与基础模型相比,查准率和查全率平均分别提升了2.49%和0.85%,相比于其他主流分类算法在性能上也均有明显提高。通过分析,该算法在文本分类上具有准确率高、收敛性强等优势,适用于对高维数据的文本分类。  相似文献   

17.

In the field of face recognition, sparse representation based classification (SRC) and collaborative representation based classification (CRC) have been widely used. Although both SRC and CRC have shown good classification results, it is still controversial whether it is sparse representation or collaborative representation that helps face recognition. In this paper, a new singular value decomposition based classification (SVDC) is proposed for face recognition. The proposed approach performs SVD on the training data of each class, and then determines the class of a test sample by comparing in which class of singular vectors it can be better represented. Experimental results on Yale B, PIE and UMIST datasets show that the proposed method achieves better recognition performance compared with several existing representation based classification algorithms. In addition, by adding Gaussian noise and Salt pepper noise to these datasets, it is proved that SVDC has better robustness. At the same time, the experimental results show that the recognition accuracy of the method acting on the training samples constructed by each class is higher than that of the method acting on the training sets constructed by all classes.

  相似文献   

18.
针对支持向量机方法在标记用户数据不充分的情况下无法有效实现托攻击检测的不足,提出一种基于SVM-KNN的半监督托攻击检测方法。根据少量标记用户数据训练一个初始SVM分类器,利用初始SVM对大量未标记用户数据进行分类,挑选出分类边界附近有可能成为支持向量的样本点,利用KNN分类器优化边界向量的标记质量,再将重新标注过的边界向量融入训练集,迭代训练逐步改善SVM的分类边界,最终获得系统决策函数。实验结果表明在标记用户数据较少的情况下,方法能有效提高托攻击的检测精度和效率,具有较强的推广能力。  相似文献   

19.
为了提高人脸识别的分类正确率,提出了一种基于核的两阶段稀疏表示(KBTPSR)的人脸识别方法.该方法首先利用一个非线性函数将原始数据空间映射到特征空间;然后,在该特征空间中将待测样本表示为所有训练样本的一个线性组合,接下来根据每个训练样本的表示贡献选出待测样本的M个最近邻;最后,将待测样本表示为上述M个最近邻的一个线性组合并且利用每一类训练样本对待测样本的表示贡献来完成分类.大量的实验结果表明,该方法可以获得很好的识别效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号