首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
KNN文本分类算法是一种简单、有效、非参数的分类方法。针对传统的KNN文本分类算法的不足,出现了很多改进的KNN算法。但改进的KNN分类算法大多数是建立在样本选择的基础上。即以损失分类精度换取分类速度。针对传统的KNN文本分类算法的不足,提出一种基于特征加权的KNN文本分类算法(KNNFW),该算法考虑各维特征对模式分类贡献的不同,给不同的特征赋予不同的权值,提高重要特征的作用,从而提高了算法的分类精度。最后给出实验结果并对实验数据进行分析得出结论。  相似文献   

2.
一种改进的基于神经网络的文本分类算法   总被引:1,自引:0,他引:1  
提出并实现了一种结合前馈型神经网络和K最近邻的文本分类算法。其中,在选取特征项时考虑到Web文本不同标签组所代表的意义和权重有所区别,采用了一种改进的TFIDF特征选择法。最后对设计的分类器进行了开放性测试,实验结果表明该分类器显著地提高了文本分类的查全率和查准率。  相似文献   

3.
齐斌 《计算机应用研究》2020,37(8):2381-2385,2408
针对基于稀疏表示的分类算法存在分类限制和计算复杂性等问题进行了研究。首先,改进了加权局部线性KNN文本特征表示方法和分类算法,通过对表示系数加权使其更加稀疏,引入非负约束以规避表示系数出现负的噪声干扰;其次,给出了分类器设计和算法的收敛性证明;最后,通过实验对比得出模型中各参数的优势值域。实验结果表明,改进后的算法与基础模型相比,查准率和查全率平均分别提升了2.49%和0.85%,相比于其他主流分类算法在性能上也均有明显提高。通过分析,该算法在文本分类上具有准确率高、收敛性强等优势,适用于对高维数据的文本分类。  相似文献   

4.
针对特征选择中降维效果与分类精度间的矛盾,通过分析传统的特征选择方法中的优点和不足,结合佳点集遗传算法的思想和K最近邻简单有效的分类特性,提出了基于佳点集遗传算法的特征选择方法.该算法对特征子集采用佳点集遗传算法进行随机搜索,并采用K近邻的分类错误率作为评价指标,淘汰不好的特征子集,保存较优的特征子集.通过实验比较看出,该算法可以有效地找出具有较高分类精度的特征子集,降维效果良好,具有较好的特征子集选择能力.  相似文献   

5.
为了增强最近邻凸包分类器的非线性分类能力,提出了基于核函数方法的最近邻凸包分类算法。该算法首先利用核函数方法将输入空间映射到高维特征空间,然后在高维特征空间采用最近邻凸包分类器对样本进行分类。最近邻凸包分类器是一类以测试点到各类别凸包的距离为相似性度量,并按最近邻原则归类的分类算法。人脸识别实验结果证实,这种核函数方法与最近邻凸包分类算法的融合是可行的和有效的。  相似文献   

6.
《传感器与微系统》2019,(1):152-154
针对传统聚类算法无法处理大规模数据的特点,结合增量算法和簇特征的思想,在初始聚类阶段,采用基于距离的K-means聚类算法获取相应簇的特征。根据簇特征,并结合K最近邻(KNN)的思想处理增量,提出了基于簇特征的增量聚类算法。提出的方法已经在加州大学尔湾分校(UCI)机器学习库中提供的真实数据集的帮助下得到验证。实验结果表明:提出的增量聚类方法的聚类精度较普通K-means算法和原始增量K-means算法有明显提高。  相似文献   

7.
基于粗糙集的快速KNN文本分类算法   总被引:1,自引:1,他引:1       下载免费PDF全文
传统K最近邻一个明显缺陷是样本相似度的计算量很大,在具有大量高维样本的文本分类中,由于复杂度太高而缺乏实用性。为此,将粗糙集理论引入到文本分类中,利用上下近似概念刻画各类训练样本的分布,并在训练过程中计算出各类上下近似的范围。在分类过程中根据待分类文本向量在样本空间中的分布位置,改进算法可以直接判定一些文本的归属,缩小K最近邻搜索范围。实验表明,该算法可以在保持K最近邻分类性能基本不变的情况下,显著提高分类效率。  相似文献   

8.
KNFL算法是近年来在人脸识别领域提出并广泛应用的分类算法,它认为类空间中两点的连线可以比类内的点更能代表类空间的特征。如果仅依据特征线距离来分类,会造成误分。这里为消除类内离群点对分类的影响提出引入加权系数,并结合类中心距的概念提出改进算法,并将其应用到海量文本分类中去。试验结果证明此改进算法能够提高文本分类精度,很好的降低了分类器对训练规模的要求。  相似文献   

9.
KNFL算法是近年来在人脸识别领域提出并广泛应用的分类算法,它认为类空间中两点的连线可以比类内的点更能代表类空间的特征.如果仅依据特征线距离来分类,会造成误分.这里为消除类内离群点对分类的影响提出引入加权系数,并结合类中心距的概念提出改进算法,并将其应用到海量文本分类中去.试验结果证明此改进算法能够提高文本分类精度,很好的降低了分类器对训练规模的要求.  相似文献   

10.
基于特征熵相关度差异的KNN算法   总被引:1,自引:0,他引:1       下载免费PDF全文
周靖  刘晋胜 《计算机工程》2011,37(17):146-148
传统K最近邻(KNN)法在进行样本分类时容易产生无法判断或判断错误的问题。为此,将特征熵与KNN相结合,提出一种新的分类算法(FECD-KNN)。该算法采用熵作为类相关度,以其差异值计算样本距离。用熵理论规约分类相关度,并根据相关度间的差异值衡量特征对分类的影响程度,从而建立距离测度与类别间的内在联系。仿真实验结果表明,与KNN及Entropy-KNN法相比,FECD-KNN在保持效率的情况下,能够提高分类准确性。  相似文献   

11.
刘忠宝 《计算机应用》2013,33(5):1432-1455
当前主流特征提取方法主要从全局特征或局部特征出发实现降维。为了能充分反映样本的全局特征和局部特征,提出基于图的人脸特征提取方法。该方法首先通过对训练样本进行学习得到最佳投影方向,该方向保证投影后的样本类内紧密而类间松散;然后将测试样本映射到最佳投影方向上并利用最近邻分类器进行样本类属判定。标准人脸库上的比较实验结果证明了所提方法的有效性。  相似文献   

12.
潘锋  王建东  顾其威  牛奔 《计算机工程》2012,38(9):197-198,201
针对数据挖掘与模式识别领域中的高维数据处理问题,通过分析样本类间距离与类内距离,给出一种基于图理论的特征排序框架。根据该框架,提出使用类内-类间和K近邻相似度定义的2种快速特征选择算法,能避免复杂度较高的广义特征分解过程。实验结果表明,该算法具有较高的分类精度。  相似文献   

13.
基于改进的保局投影视频特征提取   总被引:1,自引:0,他引:1  
提出一种视频镜头特征提取方法。针对保局投影变换要预先指定降维后的维数和近邻参数K,根据降维前后的结构误差提出确定最佳降维维数的方法,结合各个数据点邻域的统计特征实现近邻参数K的动态选择。在此基础上,将多个视频镜头的高维特征投影到低维空间获得最佳投影矩阵,新的视频特征根据此投影矩阵进行降维处理。对比实验结果表明,通过保局投影变换提取出来的特征比其它特征更加有利于视频的镜头分割。  相似文献   

14.
In this paper, two novel classifiers based on locally nearest neighborhood rule, called nearest neighbor line and nearest neighbor plane, are presented for pattern classification. Comparison to nearest feature line and nearest feature plane, the proposed methods take much lower computation cost and achieve competitive performance.  相似文献   

15.
提出了一种基于遗传算法的大数据特征选择算法。该算法首先对各维度的特征进行评估,根据每个特征在同类最近邻和异类最近邻上的差异度调整其权重,基于特征权重引导遗传算法的搜索,以提升算法的搜索能力和获取特征的准确性;然后结合特征权重计算特征的适应度,以适应度作为评价指标,启动遗传算法获取最优的特征子集,并最终实现高效准确的大数据特征选择。通过实验分析发现,该算法能够有效减小分类特征数,并提升特征分类准确率。  相似文献   

16.
Hao Du 《Pattern recognition》2007,40(5):1486-1497
This paper points out and analyzes the advantages and drawbacks of the nearest feature line (NFL) classifier. To overcome the shortcomings, a new feature subspace with two simple and effective improvements is built to represent each class. The proposed method, termed rectified nearest feature line segment (RNFLS), is shown to possess a novel property of concentration as a result of the added line segments (features), which significantly enhances the classification ability. Another remarkable merit is that RNFLS is applicable to complex tasks such as the two-spiral distribution, which the original NFL cannot deal with properly. Finally, experimental comparisons with NFL, NN(nearest neighbor), k-NN and NNL (nearest neighbor line) using both artificial and real-world data-sets demonstrate that RNFLS offers the best performance.  相似文献   

17.
Tensor decompositions have many application areas in several domains where one key application is revealing relational structure between multiple dimensions simultaneously and thus enabling the compression of relational data. In this paper, we propose the Discriminative Tensor Decomposition with Large Margin (shortly, Large Margin Tensor Decomposition, LMTD), which can be viewed as a tensor-to-tensor projection operation. It is a novel method for calculating the mutual projection matrices that map the tensors into a lower dimensional space such that the nearest neighbor classification accuracy is improved. The LMTD aims finding the mutual discriminative projection matrices which minimize the misclassification rate by minimizing the Frobenius distance between the same class instances (in-class neighbors) and maximizing the distance between different class instances (impostor neighbors). Two versions of LMTD are proposed, where the nearest neighbor classification error is computed in the feature (latent) or input (observations) space. We evaluate the proposed models on real data sets and provide a comparison study with alternative decomposition methods in the literature in terms of their classification accuracy and mean average precision.  相似文献   

18.
针对邻域信息系统的特征选择模型存在人为设定邻域参数值的问题。分别计算样本与最近同类样本和最近异类样本的距离,用于定义样本的最近邻以确定信息粒子的大小。将最近邻的概念扩展到信息理论,提出最近邻互信息。在此基础上,采用前向贪心搜索策略构造了基于最近邻互信息的特征算法。在两个不同基分类器和八个UCI数据集上进行实验。实验结果表明:相比当前多种流行算法,该模型能够以较少的特征获得较高的分类性能。  相似文献   

19.
In this paper, a novel center-based nearest neighbor (CNN) classifier is proposed to deal with the pattern classification problems. Unlike nearest feature line (NFL) method, CNN considers the line passing through a sample point with known label and the center of the sample class. This line is called the center-based line (CL). These lines seem to have more capacity of representation for sample classes than the original samples and thus can capture more information. Similar to NFL, CNN is based on the nearest distance from an unknown sample point to a certain CL for classification. As a result, the computation time of CNN can be shortened dramatically with less accuracy decrease when compared with NFL. The performance of CNN is demonstrated in one simulation experiment from computational biology and high classification accuracy has been achieved in the leave-one-out test. The comparisons with nearest neighbor (NN) classifier and NFL classifier indicate that this novel classifier achieves competitive performance.  相似文献   

20.
最近特征空间嵌入NFSE方法在训练过程中选取最近特征空间时采用传统的欧氏距离度量会导致类内离散度和类间离散度变化同步;测试时,最近邻规则也使用欧氏距离度量,而高维空间样本间直线距离具有趋同性。这些都会降低识别率,为解决此问题,提出了基于非线性距离和夹角组合的最近特征空间嵌入方法。在训练阶段,该方法使用非线性距离度量选取最近特征空间,使类内离散度的变化速度远小于类间离散度的变化速度,从而使转换空间中同类样本距离更小,不同类样本距离更大。在匹配阶段,使用结合夹角度量的最近邻分类器,充分利用样本相似性与样本夹角的关系,更适合高维空间中样本分类。仿真实验表明,基于非线性距离和夹角组合的最近特征空间嵌入方法的性能总体上优于对比算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号