首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 295 毫秒
1.
基于变精度粗糙集的KNN分类改进算法   总被引:3,自引:0,他引:3  
传统KNN算法具有简单、稳定和高效的特点,在实际领域得到广泛应用。但算法的时间复杂度与样本规模成正比,大规模或高维数据会降低KNN分类效率。文中通过引入变精度粗糙集模型,提出一种改进的KNN分类算法。算法运用变精度粗糙集上下近似概念,将各类训练样本划分为核心和边界区域,分类过程计算新样本与各类的近似程度,获取新样本的归属区域,减小分类代价,增强算法的鲁棒性。实验表明,与传统KNN算法相比,文中算法保持较高的分类精度并有效提高分类效率,具有一定的理论与实际价值。  相似文献   

2.
传统的KNN算法存在分类效率低等缺点.针对这些缺点,本文提出一种高效的结合多代表点思想的加权KNN算法,利用变精度粗糙集上下近似区域的概念,结合聚类算法生成代表点集合构造分类模型,再运用结构风险最小化理论优化分类模型并对影响分类模型的因素进行分析.分类过程中根据测试样本与各代表点的相似度,得到测试样本的相对位置.其中属于样本点下近似区域的测试样本可直接判断其类别.若测试样本在其他区域,则根据测试样本与各代表点的相对位置对各代表点覆盖范围内的样本进行加权后判断测试样本的类别.在文本分类领域的数据集上进行实验,结果表明该算法能有效的提高分类模型的性能.  相似文献   

3.
为有效提高传统KNN算法(K最近邻算法)在海量数据的分类效率,分析传统KNN算法的分类过程,提出基于K-Medoids聚类的改进KNN算法。利用K-Medoids算法对文本训练集进行聚类,把文本训练集分成相似度较高的簇;根据待分类文本与簇的相对位置,对文本训练集进行裁剪,解决传统KNN算法在文本训练集过大时速度慢的问题。分析与实验结果表明,该裁剪方法能够合理有效地裁剪文本训练集,提高了KNN算法的运行效率和分类能力。  相似文献   

4.
基于聚类改进的KNN文本分类算法   总被引:3,自引:0,他引:3  
传统的KNN文本分类算法是一种无监督的、无参数的、简单的、较流行的且容易实现的分类算法,但是KNN算法在处理文本分类的过程中需要不断的计算待测文本与样本的相似度,当文本数量更大时,算法的效率就会更差。为了提高传统KNN算法在文本分类中的效率,提出一种基于聚类的改进KNN算法。算法开始之前采用改进统计量方法进行文本特征提取,再依据聚类方法将文本集聚类成几个簇,最后利用改进的KNN方法对簇类进行文本分类。实验对比与分析结果表明,该方法可以较好的进行文本分类。  相似文献   

5.
K最近邻(KNN)算法作为目前使用最广泛的有监督分类算法,在大规模、多维度数据的处理方面往往是低效的,因此提出了一种适用于高维度大数据量处理的改进KNN算法.首先采用深度神经网络(DNN)作为特征提取器并进行降维,以学习到最合适的深度特征表示形式;然后通过密度Canopy算法获取到合适的集群数和初始聚类中心,成为之后K-means聚类的输入参数;最后对学习到的数据进行聚类,并采用近似相似性搜索(ASS)中的Hashing策略按其近似相似度进行集群划分,将结果作为KNN分类器的新训练样本.考虑到要查询的最近邻样本可能落在不同集群之中,导致KNN搜索的性能下降,在聚类时额外采用了一种聚类增强策略,有效缓解了这种情况的发生.使用五个不同的数据集进行对比测试,结果表明:与实验对比的算法相比,该算法不仅能够极大地提高KNN的分类精度,而且有效地提升了算法的分类效率,减少了搜索所需的距离数,对噪声数据还具有良好的鲁棒性.  相似文献   

6.
KNN算法是文本自动分类领域中的一种常用算法,对于低维度的文本分类,其分类准确率较高。然而在处理大量高维度文本时,传统KNN算法由于需处理大量训练样本导致样本相似度的计算量增加,降低了分类效率。为解决相关问题,本文首先利用粗糙集对高维文本信息进行属性约简,删除冗余属性,而后用改进的基于簇的KNN算法进行文本分类。通过仿真实验,证明该方法能够提高文本的分类精度和准确率。  相似文献   

7.
一种基于粗糙集理论的谱聚类算法   总被引:1,自引:1,他引:0  
谱聚类算法利用特征向量构造简化的数据空间,在降低数据维数的同时,使得数据在子空间中的分布结构更加明显.现有谱聚类算法的聚类结果多为精确集,而真实数据集中重叠现象广泛存在.基于粗糙集理论提出了一种新的谱聚类算法,其主要思想是对谱聚类算法进行粗糙集扩展,使得聚类结果成为具有下近似和上近似定义的、类与类之间存在重叠区域的结构.实验表明,该算法与现有的谱聚类算法相比,稳定性和准确率都有一定的提高.  相似文献   

8.
李艳  范斌  郭劼  林梓源  赵曌 《计算机科学》2021,48(z1):342-348
基于k-原型聚类和等价关系下的粗糙集理论,对含有连续值和符号值的目标信息系统提出了一种新的适用于混合数据的属性约简方法.首先,k-原型聚类可以通过定义混合数据的距离而得到信息系统的类簇,形成对论域的划分.将所得到的类簇代替粗糙集理论中的等价类,提出基于聚类的近似集、正域以及正域约简的概念,并根据信息熵定义属性重要性度量,建立了变精度正域约简方法.这种属性约简可以同时处理数值型和符号型数据,去除其中的冗余属性,提高分类性能,降低存储和算法运行时间耗费,并通过调节聚类参数k得到对论域不同粒度的划分,对所得到的约简进行优化.最后在UCI数据集上进行了大量的实验,针对分类问题采用了常见的4种分类算法,比较了约简前后的分类精度,详细分析了参数对结果的影响,验证了约简方法的有效性.  相似文献   

9.
特征向量的高维性以及训练样本分布不均影响文本分类器性能。提出了一种聚类模式下的KNN改进方法。首先使用一种改进的聚类方法对文本特征集进行初步筛选,随后使用一种基于类别的改进KNN分类器进行分类,减少了噪声样本对测试样本类别判定的干扰。试验结果表明本文提出的分类模型在分类效率上得到提高。  相似文献   

10.
针对微博的短文本、口语化和大数据等特性,提出基于词向量的微博话题发现方法。爬取实验数据结合中文语料库训练得到词的向量表示,再通过定义的文本词向量模型得到文本的词向量表示,相较于传统的向量空间表示模型,词向量表示模型能够解决微博短文本特征稀疏、高维度问题,同时,能够解决文本语义信息丢失问题;采用改进的Canopy算法对文本进行模糊聚类;对相同Canopy内的数据用K-means算法做精确聚类。实验结果表明,该方法与经典Single-Pass聚类算法相比,话题发现综合指标提高4%,证明了所提方法的有效性和准确性。  相似文献   

11.
KNN短文本分类算法通过扩充短文本内容提高短文本分类准确率,却导致短文本分类效率降低。鉴于此,通过卡方统计方法提取训练空间中各类别的类别特征,根据训练空间中各类别样本与该类别特征的相似情况,对已有的训练空间进行拆分细化,将训练空间中的每个类别细化为多个包含部分样本的训练子集;然后针对测试文本,从细化后的训练空间中提取与测试文本相似度较高的类别特征所对应的训练子集的样本来重构该测试文本的训练集合,减少KNN短文本分类算法比较文本对数,从而提高KNN短文本分类算法的效率。实验表明,与基于知网语义的KNN短文本分类算法相比,本算法提高KNN短文本分类算法效率近50%,分类的准确性也有一定的提升。  相似文献   

12.
基于粗糙集的快速KNN文本分类算法   总被引:2,自引:1,他引:1       下载免费PDF全文
传统K最近邻一个明显缺陷是样本相似度的计算量很大,在具有大量高维样本的文本分类中,由于复杂度太高而缺乏实用性。为此,将粗糙集理论引入到文本分类中,利用上下近似概念刻画各类训练样本的分布,并在训练过程中计算出各类上下近似的范围。在分类过程中根据待分类文本向量在样本空间中的分布位置,改进算法可以直接判定一些文本的归属,缩小K最近邻搜索范围。实验表明,该算法可以在保持K最近邻分类性能基本不变的情况下,显著提高分类效率。  相似文献   

13.
本文将KD-Tree应用到KNN文本分类算法中,先对训练文本集建立一个KD-Tree,然后在KD-Tree中搜索测试文本的所有祖先节点文本,这些祖先节点文本集合就是待测文本的最邻近文本集合,与测试文本有最大相似度的祖先的文本类型就是待测试文本的类型,这种算法大大减少了参与比较的向量文本数目,时间复杂度仅为O(log2N)。实验表明,改进后的KNN文本分类算法具有比传统KNN文本分类法更高的分类效率。  相似文献   

14.
水利信息分类是水利科学数据共享标准化最为重要的一项工作,因此对水利领域大量数据信息的分类十分有必要。针对水利文本数据非结构化的特点,设计一个基于主题模型的水利文本信息分类方案,通过结合LDA主题模型和GloVe词向量模型的优点,提出一种新的主题模型。利用AdaBoost算法改进KNN分类器,在迭代中对分类器的错误进行适应性调整,最终得到分类器的集合。实验结果表明,使用AdaBoost提升KNN对于水利文本分类效果良好,分类效果远好于常见的朴素贝叶斯和决策树,和原来的KNN分类器相比,微观准确率提高1.1个百分点,宏观准确率提高了4.1个百分点,说明在水利文本分类中使用AdaBoost算法可提升KNN分类器的有效性。  相似文献   

15.
本文介绍了基于KNN算法的文本分类流程及相关技术,针对KNN文本分类算法过分依赖K值和文本集分布情况的不足之处,提出了一种改进的KNN文本分类算法一类内均值KNN算法。通过实验表明,相对于传统的KNN算法,该算法提高了文本分类系统的稳定性和分类性能,具有一定的应用价值。  相似文献   

16.
KNN算法在数据挖掘的分支-文本分类中有重要的应用。在分析了传统KNN方法不足的基础上,提出了一种基于关联分析的KNN改进算法。该方法首先针对不同类别的训练文本提取每个类别的频繁特征集及其关联的文本,然后基于对各个类别文本的关联分析结果,为未知类别文本确定适当的近邻数k,并在已知类别的训练文本中快速选取k个近邻,进而根据近邻的类别确定未知文本的类别。相比于基于传统KNN的文本分类方法,改进方法能够较好地确定k值,并能降低时间复杂度。实验结果表明,文中提出的基于改进KNN的文本分类方法提高了文本分类的效率和准确率。  相似文献   

17.
在传统的文本分类中,KNN算法以其简单、分类准确率高、非参数得到了广泛的应用。但是传统KNN算法在进行文本分类的过程中,需要计算待分类文本与每一个训练样本的相似度,当面对海量的文本时,分类的效果会明显降低。针对此问题,提出了一种基于三支决策的KNN渐进式文本分类方法用于提高其分类效率,结合三支决策在分类问题中的优势,将三支决策与KNN算法相结合,对标题、摘要、关键词等进行渐进式的分类处理,从而完成待分类文本的分类,提高文本分类的效率和性能。实验表明,该算法能够在确保KNN算法分类准确率的基础上,同时提高分类效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号