首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
特征选择是从原始特征集中选取若干个特征子集,并降低数据维度和减少冗余信息,从而达到提高分类准确度的效果。为了达到此效果,将自适应烟花算法进行离散化处理,使用k近邻算法作为分类器,并提出新的特征选择算法。将特征子集引入目标函数,并使用惩罚因子来处理约束条件,采用十折交叉验证法来检验分类效果。使用机器学习常用的UCI数据集进行仿真实验,结果表明:与增强烟花算法、烟花算法、蝙蝠算法、粒子群算法和自适应粒子群算法相比,该算法的性能更优。  相似文献   

2.
模糊kNN在文本分类中的应用研究   总被引:1,自引:0,他引:1  
自动文本分类是根据已经分配好类标签的训练文档集,来对新文档分配类标签.针对模糊kNN算法用于文本分类的性能进行了一系列的实验研究与分析.在中英文两个不同的语料集上,采用四种著名的文本特征选择方法进行特征选择,对改进的模糊kNN方法与经典kNN及目前广泛使用的基于相似度加权的kNN方法进行实验比较.结果表明,在不同的特征选择方法下,该算法均能削弱训练样本分布的不均匀性对分类性能的影响,提高分类精度,并且在一定程度上降低对k值的敏感性.  相似文献   

3.
作为一种基于实例的方法,k-近邻(kNN)分类器有大量的计算及存储需求.同时,训练数据分布的不均衡,也会导致kNN分类器的性能下降.针对这些缺陷,文中提出特征选择与Condensing技术相结合的取样方法,以达到下述目的.在减少kNN分类的计算量及存储量的同时,保证分类器的性能.首先由传统的特征选择方法产生训练集里每类训练数据的特征.再根据文档自身的类特征,结合Condensing策略移去多余的训练实例.大量实验表明,用该方法所取得的样本作为训练集,不仅极大减少kNN方法的时空开销,而且降低噪声,提高分类器性能.  相似文献   

4.
旅行商问题是一个经典的组合优化难题,它具有重要的理论研究价值以及实际应用意义.针对此问题提出一种基于改进选择策略的离散烟花算法,将上一代适应度值最小的火花保留,同时加入动态参数自适应调整选择数目和概率,将最优火花和动态选择火花作为子代,该选择方式兼顾了适应度大小及子代选择的优劣性,并且使算法能够跳出局部最优增强了算法的全局搜索能力,保证了种群的多样性.实验表明了改进后的算法的优化程度及可行性.  相似文献   

5.
特征选择通过去除无关和冗余特征提高学习算法性能,本质是组合优化问题。黑寡妇算法是模拟黑寡妇蜘蛛生命周期的元启发式算法,在收敛速度、适应度值优化等方面具有诸多优势。针对黑寡妇算法不能进行特征选择的问题,设计五种优化策略:二进制策略“、或门”策略、种群限制策略、快速生殖策略以及适应度优先策略,提出黑寡妇特征选择算法(black widow optimization feature selection algorithm,BWOFS)和生殖调控黑寡妇特征选择算法(procreation controlled black widow optimization feature selection algorithm,PCBWOFS),从特征空间中搜索有效特征子集。在多个分类、回归公共数据集上验证新方法,实验结果表明,相较其他对比方法(全集、AMB、SFS、SFFS、FSFOA),BWOFS和PCBWOFS能找到预测精度更高的特征子集,可提供有竞争力、有前景的结果,而且与BWOFS相比,PCBWOFS计算量更小,性能更好。  相似文献   

6.
特征选择是常用的数据降维方法之一。特征选择可以有效地降维,消除不相关的数据,提高学习精度,提高结果的可理解性。数据的维数增加给许多特征选择算法带来了严重的挑战,有效地降低数据的维度,并去除冗余特征是当今研究的热点和难点。选取了4种经典的特征选择算法对3类不同数据进行处理,并分析了这几种算法的优缺点。  相似文献   

7.
传统烟花算法求解大规模离散问题存在收敛速度慢、求解精度不高等问题.针对旅行商问题的特点,提出一种带固定半径近邻搜索3-opt的离散烟花算法.该算法基于基本烟花算法进行离散化改进,采用整数编码的路径表示方法来表示旅行商问题的解,对爆炸算子、高斯变异算子进行离散化操作策略设计.为了使算法具有较好的局部搜索能力,提出固定半径近邻搜索3-opt策略来提高算法精度和收敛速度,同时采用不检测标志策略提高算法效率.实验结果表明:该算法能有效地求解旅行商问题,其离散烟花算子在全局收敛能力、收敛精度、求解时间和稳定性等方面均优于传统烟花算子;基准测试算例的最优解平均误差率仅为0.002%,优于对比算法.  相似文献   

8.
钟静  方冰  朱江 《信息网络安全》2024,24(3):352-362
在信息时代,数据获取方式简单快捷,使得数据量呈指数型增长。然而这些数据往往是多源高维的,增加了模型的复杂度,容易造成模型过拟合,并且数据中存在的冗余特征会降低模型分类精度。特征选择算法旨在通过去除不相关、冗余或嘈杂的特征,从原始特征中选择一小部分最有效特征,达到降维的效果。目前特征选择算法种类繁多,其中,基于稀疏矩阵结构的特征选择算法由于具有模型简单易懂和易求解的特点而被学者们广泛关注。本文归纳总结了基于稀疏矩阵结构的特征选择算法分类,重点介绍了鲁棒特征选择模型和多视图特征选择模型。首先,介绍了基于稀疏矩阵结构的特征选择算法基本框架;然后,介绍了基于稀疏矩阵结构的一般模型、鲁棒特征选择模型、多视图的特征选择模型,比较了它们在解决目前特征选择算法研究难点中存在的优势和不足;最后,对基于稀疏矩阵结构的特征选择算法进行了总结。文章阐明了理论研究中存在的问题和难点,探讨了基于稀疏矩阵结构的特征选择算法发展思路。  相似文献   

9.
特征降维是文本分类过程中的一个重要环节。在现有特征选择方法的基础上,综合考虑特征词在正类和负类中的分布性质,综合四种衡量特征类别区分能力的指标,提出了一个新的特征选择方法,即综合比率(CR)方法。实验采用K-最近邻分类算法(KNN)来考查CR方法的有效性,实验结果表明该方法能够取得比现有特征选择方法更优的降维效果。  相似文献   

10.
针对文本数据中含有大量噪声和冗余特征,为获取更有代表性的特征集合,提出了一种结合改进卡方统计(ICHI)和主成分分析(PCA)的特征选择算法(ICHIPCA).首先针对CHI算法忽略词频、文档长度、类别分布及负相关特性等问题,引入相应的调整因子来完善CHI计算模型;然后利用改进后的CHI计算模型对特征进行评价,选取靠前...  相似文献   

11.
针对KNN算法的分类效率随着训练集规模和特征维数的增加而逐渐降低的问题,提出了一种基于Canopy和粗糙集的CRS-KNN(Canopy Rough Set-KNN)文本分类算法。算法首先将待处理的文本数据通过Canopy进行聚类,然后对得到的每个类簇运用粗糙集理论进行上、下近似分割,对于分割得到的下近似区域无需再进行分类,而通过上、下近似作差所得的边界区域数据需要通过KNN算法确定其最终的类别。实验结果表明,该算法降低了KNN算法的数据计算规模,提高了分类效率。同时与传统的KNN算法和基于聚类改进的KNN文本分类算法相比,准确率、召回率和[F1]值都得到了一定的提高。  相似文献   

12.
不平衡数据集的特点导致了在分类时产生了诸多难题。对不平衡数据集的分类方法进行了分析与总结。在数据采样方法中从欠采样、过采样和混合采样三方面介绍不平衡数据集的分类方法;在欠采样方法中分为基于[K]近邻、Bagging和Boosting三种方法;在过采样方法中从合成少数过采样技术(Synthetic Minority Over-sampling Technology,SMOTE)、支持向量机(Support Vector Machine,SVM)两个角度来分析不平衡数据集的分类方法;对这两类采样方法的优缺点进行了比较,在相同数据集下比较算法的性能并进行分析与总结。从深度学习、极限学习机、代价敏感和特征选择四方面对不平衡数据集的分类方法进行了归纳。最后对下一步工作方向进行了展望。  相似文献   

13.
    
Text classification (TC) is a very crucial task in this century of high-volume text datasets. Feature selection (FS) is one of the most important stages in TC studies. In the literature, numerous feature selection methods are recommended for TC. In the TC domain, filter-based FS methods are commonly utilized to select a more informative feature subsets. Each method uses a scoring system that is based on its algorithm to order the features. The classification process is then carried out by choosing the top-N features. However, each method's feature order is distinct from the others. Each method selects by giving the qualities that are critical to its algorithm a high score, but it does not select by giving the features that are unimportant a low value. In this paper, we proposed a novel filter-based FS method namely, brilliant probabilistic feature selector (BPFS), to assign a fair score and select informative features. While the BPFS method selects unique features, it also aims to select sparse features by assigning higher scores than common features. Extensive experimental studies using three effective classifiers decision tree (DT), support vector machines (SVM), and multinomial naive bayes (MNB) on four widely used datasets named Reuters-21,578, 20Newsgroup, Enron1, and Polarity with different characteristics demonstrate the success of the BPFS method. For feature dimensions, 20, 50, 100, 200, 500, and 1000 dimensions were used. The experimental results on different benchmark datasets show that the BPFS method is more successful than the well-known and recent FS methods according to Micro-F1 and Macro-F1 scores.  相似文献   

14.
在研究APT攻击的防御方案过程中,针对提取APT样本网络特征的维数过高问题,提出一种基于k-means++聚类的APT样本有效网络特征筛选算法。该算法的思路是首先基于聚类的思想将提取的原特征集划分成APT流量特征集与背景流量特征集,然后计算去掉某一维特征向量后聚类性能的变化程度,最后根据该结果评价该特征向量的区分度。其中,有效特征向量即为区分度超过设定阈值的特征向量。目的就是从提取的原特征集中筛选出有效特征,达成对特征的降维,从而降低后续威胁情报形成和部署检测工作的时空开销。实验结果表明,该算法具有一定可行性,针对此问题相比于其他筛选算法具有一定的优势。  相似文献   

15.
提出一种基于偏最小二乘回归的鲁棒性特征选择与分类算法(RFSC-PLSR)用于解决特征选择中特征之间的冗余和多重共线性问题。首先,定义一个基于邻域估计的样本类一致性系数;然后,根据不同k近邻(kNN)操作筛选出局部类分布结构稳定的保守样本,用其建立偏最小二乘回归模型,进行鲁棒性特征选择;最后,在全局结构角度上,用类一致性系数和所有样本的优选特征子集建立偏最小二乘分类模型。从UCI数据库中选择了5个不同维度的数据集进行数值实验,实验结果表明,与支持向量机(SVM)、朴素贝叶斯(NB)、BP神经网络(BPNN)和Logistic回归(LR)四种典型的分类器相比,RFSC-PLSR在低维、中维、高维等不同情况下,分类准确率、鲁棒性和计算效率三种性能上均表现出较强的竞争力。  相似文献   

16.
基于密度的kNN分类器训练样本裁剪方法的改进   总被引:3,自引:0,他引:3  
在文本分类中,训练集的分布状态会直接影响k-近邻(kNN)分类器的效率和准确率。通过分析基于密度的kNN文本分类器训练样本的裁剪方法,发现它存在两大不足:一是裁剪之后的均匀状态只是以ε为半径的球形区域意义上的均匀状态,而非最理想的均匀状态即两两样本之间的距离相等;二是未对低密度区域的样本做任何处理,裁剪之后仍存在大量不均匀的区域。针对这两处不足,提出了以下两点改进:一是优化了裁剪策略,使裁剪之后的训练集更趋于理想的均匀状态;二是实现了对低密度区域样本的补充。通过实验对比,改进后的方法在稳定性和准确率方面都有明显提高。  相似文献   

17.
基于隐含狄利克雷分配模型的图像分类算法   总被引:2,自引:0,他引:2  
杨赛  赵春霞 《计算机工程》2012,38(14):181-183
概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对图像进行分类。实验结果表明,与基于概率隐含语义分析模型的分类算法相比,该算法的分类性能较优。  相似文献   

18.
K-means聚类是一种简捷高效、收敛速度快且易于实现的统计分析方法;但是传统的[K-means]聚类算法对初始聚类中心的选取敏感且易陷入局部最优;同时多数无监督特征选择算法容易忽视特征之间的联系。为此;提出了一种结合人工蜂群与[K-means]聚类的特征选择方法。首先;为了使同一簇中样本的相似度高而不同簇中样本的相似度低;基于簇内聚集度和簇间离散度构建了新的适应度函数;更好地反映各样本的特性;进而构建了蜜源被选择新的概率表达式;其次;设计了随着迭代次数的增加而数值逐渐减小的权重;提出了使蜂群搜索范围动态缩进的蜜源位置更新表达式;然后;为了弥补传统的欧氏距离在计算距离时仅考虑向量之间的累积差异而表现出的局限性;构造了同时考虑样本影响程度不同以及样本的相似性的加权欧氏距离表达式;最后;引入标准差和距离相关系数;定义了特征区分度与特征代表性;以二者之积度量特征重要性。实验结果表明;所提算法加快了人工蜂群算法的收敛速度并提高了[K-means]算法的聚类效果;同时也有效地提升了特征选择的分类效果。  相似文献   

19.
在遥感领域;获取用于训练的标记数据耗费巨大且困难;因此许多非监督技术逐渐被发展和应用于标记样本有限的遥感图像。将[k]均值和蜂群算法相结合;提出一种新的非监督聚类算法。使用灰度共生矩阵和小波变换提取遥感图像特征;对特征数据集进行蜂群[k]-means聚类。整个聚类过程首先使用最大最小距离积邻域均值法产生初始聚类中心;将蜂群算法和[k]-means算法交替执行;实现遥感图像的聚类。通过UCI数据集和凉水国家级自然保护区的遥感数据的实验结果表明;该算法具有较高的聚类准确率;满足遥感图像聚类的应用需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号