首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
KNN文本分类算法是一种简单、有效、非参数的分类方法。针对传统的KNN文本分类算法的不足,出现了很多改进的KNN算法。但改进的KNN分类算法大多数是建立在样本选择的基础上。即以损失分类精度换取分类速度。针对传统的KNN文本分类算法的不足,提出一种基于特征加权的KNN文本分类算法(KNNFW),该算法考虑各维特征对模式分类贡献的不同,给不同的特征赋予不同的权值,提高重要特征的作用,从而提高了算法的分类精度。最后给出实验结果并对实验数据进行分析得出结论。  相似文献   

2.
粗糙集是处理不精确、不确定性问题的基本方法之一。采用粗糙集理论与方法进行数据分析具有不必具备数据集的先验知识、不需人为设定参数等优点,因而它被广泛应用于模式识别与数据挖掘领域。针对粗糙集训练过程中从未遇到过的样本的分类问题进行了探讨,根据条件属性的重要性确定加权系数,采用加权KNN的方法来解决无法与决策规则精确匹配的样本分类问题,并与加权最小距离方法进行了对比实验;同时对其他一些现有的粗糙集值约简算法进行了分析与研究,提出了不同的观点。对UCI多个数据集的大量数据进行了实验,并与近期文献中的多种算法进行了性能对比,实验结果表明,提出的算法的总体效果优于其他算法。  相似文献   

3.
齐斌 《计算机应用研究》2020,37(8):2381-2385,2408
针对基于稀疏表示的分类算法存在分类限制和计算复杂性等问题进行了研究。首先,改进了加权局部线性KNN文本特征表示方法和分类算法,通过对表示系数加权使其更加稀疏,引入非负约束以规避表示系数出现负的噪声干扰;其次,给出了分类器设计和算法的收敛性证明;最后,通过实验对比得出模型中各参数的优势值域。实验结果表明,改进后的算法与基础模型相比,查准率和查全率平均分别提升了2.49%和0.85%,相比于其他主流分类算法在性能上也均有明显提高。通过分析,该算法在文本分类上具有准确率高、收敛性强等优势,适用于对高维数据的文本分类。  相似文献   

4.
一种新的基于统计的自动文本分类方法   总被引:29,自引:5,他引:29  
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中,互联网和文本库提供了大量经过粗分类的训练文本,但普遍存在样本质量较差的问题,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。  相似文献   

5.
基于结构学习的KNN分类算法   总被引:3,自引:0,他引:3  
KNN(K-Nearest Neighbor)算法和贝叶斯网络分类算法(Bayesian Network,BN)都是目前应用非常广泛的分类算法。本文首先分析了KNN和BN的分类特点,然后在保留了两个算法在分类问题中优点的基础上,提出了基于贝叶斯网络结构学习的KNN算法(BN—KNN)。实验结果表明,BN—KNN算法能够有效地提高分类的正确率。  相似文献   

6.
无先序条件约束的KNN算法   总被引:1,自引:0,他引:1  
KNN(K-Nearest Neighbor)是向量空间模型中最好的分类算法之一,非常有效和容易实现.文中介绍了KNN算法的基本思想,并针对KNN算法在解决问题的时候存在只考虑样本的数值特征,没有考虑样本结构特征的缺点,利用贝叶斯网络结构的学习算法,加入了变量之间的因果关系,产生分类数据库中样本的结构特征权重,提出在无先序条件约束下,基于贝叶斯结构特征加权的KNN算法(BS-KNN,Bayesian structure KNN).实验结果表明,BS-KNN算法能够有效地提高分类的正确率.  相似文献   

7.
为提高高光谱遥感影像在训练样本不足时的分类精度,提出一种基于线性邻域传播的改进加权K近邻算法.采用线性邻域传播(LNP)算法获取无标签数据属于各类别的概率,将其作为类别信息,以增加训练样本数量,提高K近邻算法的分类效果,并降低错误分类带来的风险.实验结果表明,对于高光谱遥感影像,该算法具有较好的分类效果,优于传统的KNN算法、距离加权KNN算法以及LNP等半监督分类算法.  相似文献   

8.
本文提出了一种改进的KNN分类算法,利用样本集合中同类别样本点间距离都十分接近的特点辅助KNN算法分类.将待分类样本点的K个最近邻样本点分别求出样本点所属类别的类别平均距离和样本点与待分类样本点距离的差值比,如果大于一个阈值,就将该样本点从K个最近邻的样本点中删除,再用此差值比对不同类别的样本点个数进行加权后执行多数投票,来决定待分类样本点所属的类别.改进后的KNN算法提高了分类的精度,并且时问复杂度与传统KNN算法相当.  相似文献   

9.
现代社会环境下机电职业学习者特征与其他学科学习者特征存在着显著差别,为了对机电职业学习者属性特征进行智能预测,提出一种结合SVM与优化KNN的算法模型。该模型首先对传统KNN模型进行加权来应对处理数据时的不均衡问题;在此之后结合SVM算法和加权KNN算法各自的优点对机电职业学习者样本进行分类,即距离超平面分类较远距离的学习者样本选择SVM算法,较近距离的则采用加权KNN算法。实验结果表明,融合各自优点的SVM-KNN算法具有更高的数据分类准确率,对机电职业学习者的属性特征分类和预测具有较好的适用性。  相似文献   

10.
基于KNN的特征自适应加权自然图像分类研究   总被引:1,自引:0,他引:1  
针对自然图像类型广泛、结构复杂、分类精度不高的实际问题, 提出了一种为自然图像不同特征自动加权值的K-近邻(K-nearest neighbors, KNN)分类方法。通过分析自然图像的不同特征对于分类结果的影响, 采用基因遗传算法求得一组最优分类权值向量解, 利用该最优权值对自然图像纹理和颜色两个特征分别进行加权, 最后用自适应加权K-近邻算法实现对自然图像的分类。实验结果表明, 在用户给定分类精度需求和低时间复杂度的约束下, 算法能快速、高精度地进行自然图像分类。提出的自适应加权K-近邻分类方法对于门类繁多的自然图像具有普遍适用性, 可以有效地提高自然图像的分类性能。  相似文献   

11.
基于GA/SVM的微阵列数据特征的选择与分类   总被引:2,自引:0,他引:2       下载免费PDF全文
微阵列数据样本小、维度高的特点给数据分析造成了困难,而主基因的挑选又十分的重要。该文采用遗传算法挑选主基因,其中,用k最邻居距离作为模式识别方法,用支持向量机构造了诊断系统,用不同核函数进行预测分类性能测试。在经典的白血病数据集上,对34个样本的测试集的分类准确率为100%。  相似文献   

12.
K近邻作为模式识别研究领域的热点之一,影响其性能的距离度量也得到广泛关注。但传统KNN采用欧氏距离,平等对待所有特征间的差别,不能有效反映数据的内在结构特征。针对此问题,借鉴局部保持投影的基本思想,根据局部保持散度矩阵定义一种距离度量新方法,利用该距离度量提出一种新颖的基于马氏距离的KNN算法。该算法在基于马氏距离分布特征的方式上充分反映每一类数据的内在结构特征。实验结果表明,与传统KNN和基于马氏距离的KNN相比,该算法表现出更好的分类精度。  相似文献   

13.
KNN算法是一种简单、有效且易于实现的分类算法,可用于类域较大的分类。近年来对KNN算法的研究偏向于静态大数据集,不过,在越来越多的情况下要用KNN算法在线实时处理流数据。考虑到流式数据流量大,连续且快速,不易存储和恢复等特性,以及流处理系统Storm对流数据处理具有实时性、可靠性的特点,提出了基于Storm的流数据KNN分类算法,该算法首先对整个样本集进行划分,形成多个片集,然后计算出待分类向量在各片集上的[K]近邻,最后再将所有片集[K]近邻归约得出整体[K]近邻,实现待分类向量的分类。实验结果表明,基于Storm的流数据KNN分类算法能够满足大数据背景下对流数据分类的高吞吐量、可扩展性、实时性和准确性的要求。  相似文献   

14.
传统的KNN算法存在分类效率低等缺点.针对这些缺点,本文提出一种高效的结合多代表点思想的加权KNN算法,利用变精度粗糙集上下近似区域的概念,结合聚类算法生成代表点集合构造分类模型,再运用结构风险最小化理论优化分类模型并对影响分类模型的因素进行分析.分类过程中根据测试样本与各代表点的相似度,得到测试样本的相对位置.其中属于样本点下近似区域的测试样本可直接判断其类别.若测试样本在其他区域,则根据测试样本与各代表点的相对位置对各代表点覆盖范围内的样本进行加权后判断测试样本的类别.在文本分类领域的数据集上进行实验,结果表明该算法能有效的提高分类模型的性能.  相似文献   

15.
一种基于中心文档的KNN中文文本分类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项间的语义关系,并根据语义关系进行聚类生成中心文档,减少了KNN要搜索的文档数,提高了分类速度。仿真实验表明,该算法在不损失分类精度的情况下,显著提高了分类的速度。  相似文献   

16.
Nondeterministic weighted finite-state automata are a key abstraction in automatic speech recognition systems. The efficiency of automatic speech recognition depends directly on the sizes of these automata and the degree of nondeterminism present, so recent research has studied ways to determinize and minimize them, using analogues of classical automata determinization and minimization. Although, as we describe here, determinization can in the worst case cause poly-exponential blowup in the number of states of a weighted finite-state automaton, in practice it is remarkably successful. In extensive experiments in automatic speech recognition systems, deterministic weighted finite-state automata tend to be smaller than the corresponding nondeterministic inputs. Our observations show that these size reductions depend critically on the interplay between weights and topology in nondeterministic weighted finite-state automata. We exploit these observations to design a new approximate determinization algorithm, which produces a deterministic weighted finite-state automaton that preserves the strings of a weighted language but not necessarily their weights. We apply our algorithm to two different types of weighted finite-state automata that occur in automatic speech recognition systems and in each case provide extensive experimental results showing that, compared with current techniques, we achieve significant size reductions without affecting performance. In particular, for a standard test bed, we can reduce automatic speech recognition memory requirements by 25—35\percent with negligible effects on recognition time and accuracy. Received March 31, 1998; revised January 29, 1999.  相似文献   

17.
针对一种新型的DDoS攻击—链路泛洪攻击(link-flooding attack,LFA)难以检测的问题,提出了SDN中基于MS-KNN(mean shift-K-nearestneighbor)方法的LFA检测方法。首先通过搭建SDN实验平台,模拟LFA并构建LFA数据集;然后利用改进的加权欧氏距离均值漂移(mean shift,MS)算法对LFA数据集进行分类;最后利用K近邻(K-nearestneighbor,KNN)算法判断分类结果中是否具有LFA数据。实验结果表明,相较于KNN算法,利用MS-KNN不仅得到了更高的准确率,同时也得到了更低的假阳性率。  相似文献   

18.
网络入侵检测算法是网络安全领域研究的热点和难点内容之一。目前许多算法如KNN、TCMKNN等处理的训练样本集都比较小,在处理大样本集时仍然非常耗时。因此,提出了一种适应大样本集的网络入侵检测算法(Cluster-KNN算法)。该算法分为离线数据预处理(数据索引)和在线实时分类两个阶段:离线预处理阶段建立大样本集的聚簇索引;在线实时分类阶段则利用聚簇索引搜索得到近邻,最终采用KNN算法得出分类结果。实验结果表明:与传统的KNN算法相比,Cluster-KNN算法在分类阶段具有很高的时间效率,同时在准确率、误报率和漏报率方面与其它同领域入侵检测方法相比也具有相当的优势。Cluster-KNN能够很好地区分异常和正常场景,且在线分类速度快,因而更适用于现实的网络应用环境。  相似文献   

19.
数据流分类已成为当前研究热点之一,如何解决其中的概念漂移和噪声是关键问题,为此提出了一种新的基 于分类器相似性的动态集成算法。由于数据流中相部数据具有相同概念的概率较大,因此用最新基分类器代表数据 流中即将出现的概念,同时基于此分类器求出基分类器之间的相似性作为权值进行加权多数投票,并根据相似性大小 淘汰较弱基分类器以适应概念漂移和噪声。在标准仿真数据集上进行了仿真实验,结果表明该算法相比其他集成方 法在抗噪性能和分类准确性方面均得到显著提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号