首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 678 毫秒
1.
曾俊 《计算机应用研究》2012,29(5):1926-1928
将SVM和KNN算法结合在一起,组成一种新的Web文本分类算法——SVM-KNN算法。当Web文本和SVM最优超平面的距离大于预选设定的阈值,则采用SVM进行分类,反之采用SVM作为代表点的KNN算法对样本分类。实证结果表明,SVM-KNN分类算法的分类精度比单纯SVM或KNN分类算法有不同程度的提高,为Web数据挖掘提供了一种有效的分类方法。  相似文献   

2.
KNN算法因其易于理解、理论成熟等优点而被广泛应用于文本分类。由于KNN需遍历样本空间计算距离,当训练集样本规模较大或维数较高时,计算开销是巨大的。针对此问题,首先将遗传算法适应度函数设计部分与K-medoids算法思想相融合形成K-GA-medoids,其次将其与KNN相结合形成用于文本分类的算法框架,在分类过程中,采取先聚类,再分类的步骤,以实现对训练集样本的缩减,从而降低计算开销。实验表明,K-GA-medoids相较于传统K-medoids而言在聚类效果上有较为明显的提升,且将其与KNN相结合形成的文本分类算法框架与传统KNN算法相比在保证分类精确率的前提下,有效提升了文本分类的效率。  相似文献   

3.
KNN文本分类算法是一种简单、有效、非参数的分类方法。针对传统的KNN文本分类算法的不足,出现了很多改进的KNN算法。但改进的KNN分类算法大多数是建立在样本选择的基础上。即以损失分类精度换取分类速度。针对传统的KNN文本分类算法的不足,提出一种基于特征加权的KNN文本分类算法(KNNFW),该算法考虑各维特征对模式分类贡献的不同,给不同的特征赋予不同的权值,提高重要特征的作用,从而提高了算法的分类精度。最后给出实验结果并对实验数据进行分析得出结论。  相似文献   

4.
针对KNN算法的分类效率随着训练集规模和特征维数的增加而逐渐降低的问题,提出了一种基于Canopy和粗糙集的CRS-KNN(Canopy Rough Set-KNN)文本分类算法。算法首先将待处理的文本数据通过Canopy进行聚类,然后对得到的每个类簇运用粗糙集理论进行上、下近似分割,对于分割得到的下近似区域无需再进行分类,而通过上、下近似作差所得的边界区域数据需要通过KNN算法确定其最终的类别。实验结果表明,该算法降低了KNN算法的数据计算规模,提高了分类效率。同时与传统的KNN算法和基于聚类改进的KNN文本分类算法相比,准确率、召回率和[F1]值都得到了一定的提高。  相似文献   

5.
基于KNN和LAS的短信文本语义分类研究   总被引:1,自引:0,他引:1  
KNN算法是文本分类技术中比较常用的算法。但是,当训练集容量较大时,KNN算法分类的效率大大降低。在对中文短信文本的分类时,结合中文短信文本的特点,给出了先由LAS算法进行降维,然后利用KNN算法进行分类的算法。实验结果表明,该算法提高了中文短信文本的分类质量和分类速度。  相似文献   

6.
基于KNN的Web文本分类方法的研究   总被引:1,自引:0,他引:1  
为了更有效地组织Internet 上丰富的信息资源, 通过分析Web 文本的特点,提出了基于KNN 的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法.实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率.  相似文献   

7.
为有效提高传统KNN算法(K最近邻算法)在海量数据的分类效率,分析传统KNN算法的分类过程,提出基于K-Medoids聚类的改进KNN算法。利用K-Medoids算法对文本训练集进行聚类,把文本训练集分成相似度较高的簇;根据待分类文本与簇的相对位置,对文本训练集进行裁剪,解决传统KNN算法在文本训练集过大时速度慢的问题。分析与实验结果表明,该裁剪方法能够合理有效地裁剪文本训练集,提高了KNN算法的运行效率和分类能力。  相似文献   

8.
现代社会环境下机电职业学习者特征与其他学科学习者特征存在着显著差别,为了对机电职业学习者属性特征进行智能预测,提出一种结合SVM与优化KNN的算法模型。该模型首先对传统KNN模型进行加权来应对处理数据时的不均衡问题;在此之后结合SVM算法和加权KNN算法各自的优点对机电职业学习者样本进行分类,即距离超平面分类较远距离的学习者样本选择SVM算法,较近距离的则采用加权KNN算法。实验结果表明,融合各自优点的SVM-KNN算法具有更高的数据分类准确率,对机电职业学习者的属性特征分类和预测具有较好的适用性。  相似文献   

9.
在传统的文本分类中,KNN算法以其简单、分类准确率高、非参数得到了广泛的应用。但是传统KNN算法在进行文本分类的过程中,需要计算待分类文本与每一个训练样本的相似度,当面对海量的文本时,分类的效果会明显降低。针对此问题,提出了一种基于三支决策的KNN渐进式文本分类方法用于提高其分类效率,结合三支决策在分类问题中的优势,将三支决策与KNN算法相结合,对标题、摘要、关键词等进行渐进式的分类处理,从而完成待分类文本的分类,提高文本分类的效率和性能。实验表明,该算法能够在确保KNN算法分类准确率的基础上,同时提高分类效率。  相似文献   

10.
通过实验对SVM、KNN文本分类算法进行了深入探讨。基于KNN和SVM算法,提出了一种SVM.KNN算法。该算法结合KNN和SVM两种分类器,并通过分类预测概率的反馈和修正来提高分类器性能。在CWT100G中文网页分类测试系统中,对SVM.KNN算法的实际效果进行了测试和算法性能验证。  相似文献   

11.
文本分类为一个文档自动分配一组预定义的类别或主题。文本分类中,文档的表示对学习机的学习性能有很大的影响。以实现哈萨克语文本分类为目的,根据哈萨克语语法规则设计实现哈萨克语文本的词干提取,完成哈萨克语文本的预处理。提出基于最近支持向量机的样本距离公式,避免k参数的选定,以SVM与KNN分类算法的特殊组合算法(SV-NN)实现了哈萨克语文本的分类。结合自己构建的哈萨克语文本语料库的语料进行文本分类仿真实验,数值实验展示了提出算法的有效性并证实了理论结果。  相似文献   

12.
KNN短文本分类算法通过扩充短文本内容提高短文本分类准确率,却导致短文本分类效率降低。鉴于此,通过卡方统计方法提取训练空间中各类别的类别特征,根据训练空间中各类别样本与该类别特征的相似情况,对已有的训练空间进行拆分细化,将训练空间中的每个类别细化为多个包含部分样本的训练子集;然后针对测试文本,从细化后的训练空间中提取与测试文本相似度较高的类别特征所对应的训练子集的样本来重构该测试文本的训练集合,减少KNN短文本分类算法比较文本对数,从而提高KNN短文本分类算法的效率。实验表明,与基于知网语义的KNN短文本分类算法相比,本算法提高KNN短文本分类算法效率近50%,分类的准确性也有一定的提升。  相似文献   

13.
基于向量投影的KNN文本分类算法   总被引:2,自引:0,他引:2  
针对KNN算法分类时间过长的缺点,分析了提高分类效率的方法.在KNN算法基础上,结合向量投影理论以及iDistance索引结构,提出了一种改进的KNN算法--PKNN.该算法通过比较待分类样本和训练样本的一维投影距离,获得最有可能的临近样本点,减小了参与计算的训练样本数,因此可以减少每次分类的计算量.实验结果表明,PKNN算法可以明显提高KNN算法的效率,PKNN算法的原理决定其适合大容量高维文本分类.  相似文献   

14.
齐斌 《计算机应用研究》2020,37(8):2381-2385,2408
针对基于稀疏表示的分类算法存在分类限制和计算复杂性等问题进行了研究。首先,改进了加权局部线性KNN文本特征表示方法和分类算法,通过对表示系数加权使其更加稀疏,引入非负约束以规避表示系数出现负的噪声干扰;其次,给出了分类器设计和算法的收敛性证明;最后,通过实验对比得出模型中各参数的优势值域。实验结果表明,改进后的算法与基础模型相比,查准率和查全率平均分别提升了2.49%和0.85%,相比于其他主流分类算法在性能上也均有明显提高。通过分析,该算法在文本分类上具有准确率高、收敛性强等优势,适用于对高维数据的文本分类。  相似文献   

15.
本文介绍了基于KNN算法的文本分类流程及相关技术,针对KNN文本分类算法过分依赖K值和文本集分布情况的不足之处,提出了一种改进的KNN文本分类算法一类内均值KNN算法。通过实验表明,相对于传统的KNN算法,该算法提高了文本分类系统的稳定性和分类性能,具有一定的应用价值。  相似文献   

16.
提出了一种基于文本和类别信息的改进KNN文本分类算法。传统的KNN算法在计算样本相似度时利用的是文本和特征的相关信息,因此存在计算量大的明显缺陷,使其在具有大量高维样本的文本分类中缺乏实用性。新算法利用文本和类别的相关信息计算样本间的相似度,能够对特征维数进行有效的压缩。实验表明,该算法有较高的文本分类效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号