首页 | 本学科首页   官方微博 | 高级检索  
检索     
共有20条相似文献,以下是第1-20项 搜索用时 203 毫秒

1.  文本分类中基于K-means的类偏斜KNN样本剪裁  
   刘海峰  姚泽清  苏展  张学仁《微电子学与计算机》,2012年第29卷第5期
   KNN算法是经典的文本分类算法.训练样本的数量和类别密度是影响算法性能的主要瓶颈,合理的样本剪裁可以提高分类器效率.文中提出了一种基于聚类的改进KNN分类模型.首先对训练集进行聚类,基于测试样本与簇之间的相对位置对训练集进行合理裁剪以节约计算开销;然后基于簇内样本分布进行样本赋权,改善大类别样本的密度占优现象.实验结果表明,本文提出的样本剪裁方法提高了KNN算法的分类性能.    

2.  一种改进的KNN文本分类  被引次数:2
   钟将  刘荣辉《计算机工程与应用》,2012年第48卷第2期
   在文本分类中,文本特征空间维数巨大以及训练样本分布不均衡等问题影响分类性能。针对这个问题,提出一种改进的KNN分类方法。利用隐含语义分析方法对特征样本空间进行降维处理;利用基于样本密度的改进的KNN分类器进行分类。实验结果表明提出的方法能够收到较好的分类效果。    

3.  基于聚类和密度的KNN分类器训练样本约减方法  
   艾英山  张德贤《计算机与数字工程》,2009年第37卷第5期
   提出了一种基于聚类和密度的KNN分类器训练样本约减方法。使用KNN分类器进行文本分类的时侯,由于训练样本在类别内分布的不均匀,会造成分类准确性的下降,而且相似度计算量非常大。新方法根据训练样本的密度采用聚类的方法,约减了一定数量的“噪声”样本。实验表明,使用该方法能同时提高KNN分类器的准确率和效率。    

4.  一种改进的分类算法在不良信息过滤中的应用  
   刘志刚  杜娟  衣治安《微计算机应用》,2011年第32卷第2期
   使用KNN(K Nearest Neighbor)分类算法进行不良文本信息过滤时,由于包含不良信息的样本不易获取,导致分类器预测结果严重倾向于多数类。为改善少数类过滤效果,从数据层的角度改进了传统的KNN算法:先将少数类样本聚类分组,再在每个聚类内部使用遗传交叉生成新样本,并验证其有效性,最终获取到各类别样本数量基本均衡的训练样本集合并训练KNN分类器。实验结果表明,本文的方法可有效识别不良文本。此方法同时适用于其他关注少数类分类精度的不均衡数据集分类问题。    

5.  面向中文文本分类的C4.5Bagging算法研究  被引次数:2
   张翔  周明全  耿国华  侯凡《计算机工程与应用》,2009年第45卷第26期
   对于中文文本分类问题,提出一种新的Bagging方法。这一方法以决策树C4.5算法为弱分类器,通过实例重取样获取多个训练集,将其结果按照投票规则进行合成,最终得到分类结果。实验证明,这种算法的准确率、查全率、F1值比C4.5、kNN和朴素贝叶斯分类器都高,具有更加优良的性能。    

6.  基于K-Medoids聚类的改进KNN文本分类算法  
   罗贤锋  祝胜林  陈泽健  袁玉强《计算机工程与设计》,2014年第11期
   为有效提高传统KNN算法(K最近邻算法)在海量数据的分类效率,分析传统KNN算法的分类过程,提出基于K-Medoids聚类的改进KNN算法。利用K-Medoids算法对文本训练集进行聚类,把文本训练集分成相似度较高的簇;根据待分类文本与簇的相对位置,对文本训练集进行裁剪,解决传统KNN算法在文本训练集过大时速度慢的问题。分析与实验结果表明,该裁剪方法能够合理有效地裁剪文本训练集,提高了KNN算法的运行效率和分类能力。    

7.  一种聚类模式下基于密度的改进KNN算法  被引次数:1
   刘海峰  庞秀梅  张学仁《微电子学与计算机》,2011年第28卷第7期
   KNN是基于实例的算法,训练样本的数量影响KNN的分类性能.合理的样本剪裁可以提高分类器的效率.提出了一种聚类条件下基于密度的KNN改进模型.首先使用聚类方法对训练集进行基于类别的选择,裁剪边缘样本以减少噪音;再基于类别密度对样本进行加权,改善k近邻选择时大类别、高密度训练样本的占优现象.试验结果表明,本文提出的改进KNN分类算法提高了KNN的分类效率.    

8.  改进型加权KNN算法的不平衡数据集分类  
   王超学  潘正茂  马春森  董丽丽  张涛《计算机工程》,2012年第38卷第20期
   K最邻近(KNN)算法对不平衡数据集进行分类时分类判决总会倾向于多数类.为此,提出一种加权KNN算法GAK-KNN.定义新的权重分配模型,综合考虑类间分布不平衡及类内分布不均匀的不良影响,采用基于遗传算法的K-means算法对训练样本集进行聚类,按照权重分配模型计算各训练样本的权重,通过改进的KNN算法对测试样本进行分类.基于UCI数据集的大量实验结果表明,GAK-KNN算法的识别率和整体性能都优于传统KNN算法及其他改进算法.    

9.  一种新的基于统计的自动文本分类方法  被引次数:32
   刘斌  黄铁军  程军  高文《中文信息学报》,2002年第16卷第6期
   自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征 ,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中 ,互联网和文本库提供了大量经过粗分类的训练文本 ,但普遍存在样本质量较差的问题 ,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。    

10.  模糊kNN在文本分类中的应用研究  被引次数:1
   林永民  朱卫东《计算机应用与软件》,2008年第25卷第9期
   自动文本分类是根据已经分配好类标签的训练文档集,来对新文档分配类标签.针对模糊kNN算法用于文本分类的性能进行了一系列的实验研究与分析.在中英文两个不同的语料集上,采用四种著名的文本特征选择方法进行特征选择,对改进的模糊kNN方法与经典kNN及目前广泛使用的基于相似度加权的kNN方法进行实验比较.结果表明,在不同的特征选择方法下,该算法均能削弱训练样本分布的不均匀性对分类性能的影响,提高分类精度,并且在一定程度上降低对k值的敏感性.    

11.  一种基于数据偏斜的改进KNN文本分类  被引次数:2
   刘海峰  陈琦  刘守生  苏展《微电子学与计算机》,2010年第27卷第3期
   KNN是一种简单、有效、非参数的分类算法.针对样本分布偏斜的分类环境,首先提出了一种改进的特征选择方法进行特征降维,在此基础上进一步提出了一种基于分布的改进KNN方法用于文本分类,降低了分布偏斜问题对决策函数的影响.试验表明,所提出的改进KNN文本分类方法具有较好的分类性能.    

12.  改进的模块2DPCA人脸识别方法  被引次数:1
   张龙翔《计算机工程与应用》,2010年第46卷第13期
   提出了一种基于类内自适应加权平均值的模块2DPCA人脸识别方法。该算法对每一类训练样本中每个训练样本的每一子块求类内自适应加权平均值,并用类内自适应加权平均值对训练样本类内的相应子块进行规范化处理,然后由所有规范化后的子块构成总体散布矩阵,从而得到最优投影矩阵;由训练集的全体子块的加权平均值对训练样本的子块和测试样本的子块进行规范化后投影到最优投影矩阵,得到识别特征;最后用最近距离分类器分类。在ORL人脸库上的实验结果表明,提出的方法在识别性能上明显优于2DPCA方法和普通模块2DPCA方法。    

13.  基于自适应加权的文本关联分类  被引次数:1
   陈晓云  胡运发《小型微型计算机系统》,2007年第28卷第1期
   在文本关联分类研究中,训练样本特征词的分布情况对分类结果影响很大.即使是同一种关联分类算法,在不同的样本集上使用,分类效果也可能明显不同.为此,本文利用加权方法改善文本关联分类器的稳定性,设计实现了基于规则加权的关联分类算法(WARC)和基于样本加权的关联分类算法(SWARC).WARC算法通过规则自适应加权调整强弱不均的分类规则;SWARC算法则自适应地调整训练样本的权重,从根本上改善不同类别样本特征词分布不均的情况.实验结果表明,无论是WARC还是SWARC算法,经过权重调整后的文本分类质量明显提高,特别是SWARC算法分类质量的提高极为显著.    

14.  基于累积正样本的偏斜数据流集成分类方法  
   郭文锋  王勇《计算机与现代化》,2015年第3期
   针对现有处理偏斜数据流的方法存在过拟合或者未充分利用现有数据这一问题,提出一种基于累积正样本的偏斜数据流集成分类方法 EAMIDS。该算法把目前达到的所有数据块的正样本收集起来生成集合AP,然后采用KNN算法和Over-sampling方法来平衡数据块的类分布。当基分类器数量超过最大值时,根据F-Measure值来更新集成分类器。通过在模拟数据集SEA和SPH上的实验,与IDSL算法和SMOTE算法相比,表明EAMIDS具有更高的准确率。    

15.  基于粗糙集与改进KNN算法的文本分类方法的研究  
   邵莉《计算机与现代化》,2012年第2期
   KNN算法是文本自动分类领域中的一种常用算法,对于低维度的文本分类,其分类准确率较高。然而在处理大量高维度文本时,传统KNN算法由于需处理大量训练样本导致样本相似度的计算量增加,降低了分类效率。为解决相关问题,本文首先利用粗糙集对高维文本信息进行属性约简,删除冗余属性,而后用改进的基于簇的KNN算法进行文本分类。通过仿真实验,证明该方法能够提高文本的分类精度和准确率。    

16.  基于边际Fisher准则和迁移学习的小样本集分类器设计算法  
   舒醒  于慧敏  郑伟伟  谢奕  胡浩基  唐慧明《自动化学报》,2016年第42卷第9期
   如何利用大量已有的同构标记数据(源域)设计小样本训练数据(目标域)的分类器是一个具有很强应用意义的研究问题. 由于不同域的数据特征分布有差异,直接使用源域数据对目标域样本进行分类的效果并不理想. 针对上述问题,本文提出了一种基于迁移学习的分类器设计算法. 首先,本文利用内积度量的边际Fisher准则对源域进行特征映射,提高源域中类内紧凑性和类间区分性. 其次,为了筛选合理的训练样本对,本文提出一种去除边界奇异点的算法来选择源域密集区域样本点,与目标域中的标记样本点组成训练样本对. 在核化空间上,本文学习了目标域特征到源域特征的非线性转换,将目标域映射到源域. 最后,利用邻近算法(k-nearest neighbor,kNN)分类器对映射后的目标域样本进行分类. 本文不仅改进了边际Fisher准则方法,并且将基于自适应样本对 筛选的迁移学习应用到小样本数据的分类器设计中,提高域间适应性. 在通用数据集上的实验结果表明,本文提出的方法能够有效提高小样本训练域的分类器性能.    

17.  一种基于特征重要度的文本分类特征加权方法  被引次数:4
   刘赫  刘大有  裴志利  高滢《计算机研究与发展》,2009年第46卷第10期
   针对文本分类中的特征加权问题,提出了一种基于特征重要度的特征加权方法.该方法基于实数粗糙集理论,通过定义特征重要度,将特征对分类的决策信息引入到特征权重中.然后,在标准文本数据集Reuters-21578 Top10和WebKB上进行了实验.结果表明,该方法能改善样本空间的分布状态,使同类样本更加紧凑,异类样本更加松散,从而简化从样本到类别的映射关系.最后,使用Nave Bayes,kNN和SVM分类器在上述数据集上对该方法进行了实验.结果表明,该方法能提高分类的准确率、召回率和F1值.    

18.  基于位置的文本分类样本剪裁及加权方法  
   刘海峰  刘守生  苏展《计算机工程与应用》,2015年第2期
   k近邻方法是文本分类中广泛应用的方法,对其性能的优化具有现实需求。使用一种改进的聚类算法进行样本剪裁以提高训练样本的类别表示能力;根据样本的空间位置先后实现了基于类内和类间分布的样本加权;改善了k近邻算法中的大类别、高密度训练样本占优现象。实验结果表明,提出的改进文本加权方法提高了分类器的分类效率。    

19.  一种基于近邻元分析的文本分类算法  
   刘丛山  李祥宝  杨煜普《计算机工程》,2012年第38卷第15期
   在近邻元分析(NCA)算法的基础上,提出K近邻元分析分类算法K-NCA。利用NCA算法完成对训练样本集的距离测度学习和降维,定义类偏斜因子,引入K近邻思想,得到测试样本的类条件概率估计,并通过该概率进行类别判定,实现文本分类器功能。实验结果表明,K-NCA算法的分类效果较好。    

20.  一种基于层次分析法的改进KNN算法  
   戴璞微  潘斌  王玉铭  朱峰《辽宁石油化工大学学报》,2018年第4期
   KNN分类算法具有非参数性,易于理解且比较高效,被广泛应用于许多领域。传统的KNN算法中的欧氏距离求法将样本所有属性的贡献视为相同,而实际上样本不同属性的贡献并不一定相同,为解决此问题,提出了一种基于层次分析法的改进KNN算法。在改进算法中,首先利用层次分析法计算样本各属性的权值,再采用加权的欧氏距离计算样本距离,根据样本的加权距离进行分类。实验中,随着训练样本的不断增加,AHP-KNN算法的效率不断提高,并且逐步优于FCD-KNN算法和传统KNN算法的效率。仿真结果表明,提出的改进算法有效提高了传统KNN算法的分类精确度,并具有一定的理论和实际应用价值。    

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号