首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
针对大多数粒计算特征选择算法未考虑数据的类别不平衡性的问题,提出一种融合伪标签策略的类别不平衡数据特征选择算法.首先,为了便于研究类别不平衡数据特征选择算法,重新定义样本和数据集一致度的概念,并设计了相应特征选择的贪婪前向搜索算法;其次,引入伪标签策略以平衡数据的类别分布,并将所学样本的伪标签融入一致性测度中,以构造伪...  相似文献   

2.
特征选择是机器学习和数据挖据中一个重要的预处理步骤,而类别不均衡数据的特征选择是机器学习和模式识别中的一个热点研究问题。多数传统的特征选择分类算法追求高精度,并假设数据没有误分类代价或者有同样的代价。在现实应用中,不同的误分类往往会产生不同的误分类代价。为了得到最小误分类代价下的特征子集,本文提出一种基于样本邻域保持的代价敏感特征选择算法。该算法的核心思想是把样本邻域引入现有的代价敏感特征选择框架。在8个真实数据集上的实验结果表明了该算法的优越性。  相似文献   

3.
翟俊海  张素芳  王聪  沈矗  刘晓萌 《计算机应用》2018,38(10):2759-2763
针对传统的主动学习算法只能处理中小型数据集的问题,提出一种基于MapReduce的大数据主动学习算法。首先,在有类别标签的初始训练集上,用极限学习机(ELM)算法训练一个分类器,并将其输出用软最大化函数变换为一个后验概率分布。然后,将无类别标签的大数据集划分为l个子集,并部署到l个云计算节点上。在每一个节点,用训练出的分类器并行地计算各个子集中样例的信息熵,并选择信息熵大的前q个样例进行类别标注,将标注类别的l×q个样例添加到有类别标签的训练集中。重复以上步骤直到满足预定义的停止条件。在Artificial、Skin、Statlog和Poker 4个数据集上与基于ELM的主动学习算法进行了比较,结果显示,所提算法在4个数据集上均能完成主动样例选择,而基于ELM的主动学习算法只在规模最小的数据集上能完成主动样例选择。实验结果表明,所提算法优于基于极限学习机的主动学习算法。  相似文献   

4.
为了准确快速地进行人脸识别,提出了一种基于类矩阵和特征融合的加权自适应人脸识别算法,该算法首先,提取人脸的全局特征和6个关键部分的局部特征,同时给出了局部特征权值的动态选择方法,由于该法可以根据不同的训练集得出不同的权值,因而增强了算法的自适应能力;然后通过将全局和局部特征加权融合来得出样本的特征矩阵;接着设计出了一种加权PCA方法用于对样本矩阵进行降维;再进一步提出类矩阵的概念,同时给出并证明了类矩阵的推导公式,并据此得出一种新的投影准则;最后,将类矩阵和试验样本分别进行投影,并根据其欧氏距离的大小得出试验人脸的最终类别。试验表明,该算法不仅计算速度快、识别率高,而且能有效解决LDA小样本空间问题,应用前景良好。  相似文献   

5.
为挖掘数据的非独立同分布关系并解决传统KNN算法中存在的分类结果不准确的问题,提出一种非独立同分布下数值型数据的KNN改进算法.利用Pearson相关系数公式得出耦合相似度矩阵,通过该耦合相似度矩阵计算样本的类隶属度,通过Relief F算法思想进行特征权重的计算,根据训练样本的类隶属度和特征权重更新类别决策规则,确定待分类样本的类别.对多个UCI数据集的验证结果表明,该算法能够有效提高分类准确率.  相似文献   

6.
采用不一致性或含有冗余特征的样本数据集往往会降低分类的质量和效率.提出了一种将分类数据集一致化,并在此基础上选择最小特征变量集的方法.该方法首先根据贝叶斯公式,将非一致数据归为最可能的一类,使数据集一致化,然后在一致数据集上,定义类别区分矩阵,选择最小特征变量集,并给出了在类别区分矩阵上搜索最小特征变量集的启发式搜索策略.采用UCI标准数据集的实验结果表明,提出的方法可有效地删除数据集的不一致性,选择的最小特征变量集可准确区分各类数据并降低数据的维数.  相似文献   

7.
采用不一致性或含有冗余特征的样本数据集往往会降低分类的质量和效率。提出了一种将分类数据集一致化,并在此基础上选择最小特征变量集的方法。该方法首先根据贝叶斯公式,将非一致数据归为最可能的一类,使数据集一致化,然后在一致数据集上,定义类别区分矩阵,选择最小特征变量集,并给出了在类别区分矩阵上搜索最小特征变量集的启发式搜索策略。采用UCI标准数据集的实验结果表明,提出的方法可有效地删除数据集的不一致性,选择的最小特征变量集可准确区分各类数据并降低数据的维数。  相似文献   

8.
湛航  何朗  黄樟灿  李华峰  张蔷  谈庆 《计算机应用》2021,41(9):2658-2667
针对一般特征选择算法未能揭示数据特征与数据类别之间的可解释性映射关系的问题,在基因表达式编程(GEP)的基础上,通过引入初始化方法、变异策略以及适应度评价方法,提出了一种改进的基于层次距离的GEP特征选择分类算法(FSLDGEP)。首先,利用定义的选择概率有导向地初始化种群个体,从而增加种群中有效个体的数量;其次,定义个体的层次邻域,使种群个体基于其层次邻域进行变异,并解决了变异过程中的盲目无导向性问题;最后,将维度缩减率与分类准确率结合起来作为个体的适应度值,从而改变种群单一优化目标的进化模式,并平衡两者之间的关系。在7个数据集上进行5折交叉和10折交叉验证,所提算法给出了数据特征及其类别之间的函数映射关系,将得到的映射函数用于数据分类。与森林优化特征选择算法(FSFOA)、邻域软边界特征选择算法(NSM)、基于邻域有效信息比的特征选择算法(FS-NEIR)等对比算法相比,所提算法的维度缩减率在Hepatitis、WPBC(Wisconsin Prognostic Breast Cancer)、Sonar、WDBC(Wisconsin Diagnostic Breast Cancer)数据集上得到了最好结果;与对比算法相比,所提算法的平均分类准确率在Hepatitis、Ionosphere、Musk1、WPBC、Heart-Statlog、WDBC数据集上得到了最好结果。实验结果验证了所提算法在特征选择分类问题上的可行性、有效性和优越性。  相似文献   

9.
为处理高维稀疏的大规模文档数据,提出一种基于强类别特征近邻传播(SCFAP)的半监督文本聚类算法.聚类过程中,利用少量带类别标签的监督数据,提取具有强类别区分能力的特征项以构建更有效的样本间相似性测度.并在每轮迭代完成后将类别确定性程度最高的未标记样本转移到已标注集,使算法执行效率提高.实验结果表明,这种改进对于近邻传播算法的性能和准确度的提升有较大帮助,在Reuter-21578和20Newsgroups两个相异数据集上,SCFAP算法表现较好的适用性.综合考察聚类微平均Fμ指标和类簇纯度Pt指标,该算法在少量监督信息辅助下能快速获得较好的聚类结果.  相似文献   

10.
一种大数据环境中分布式辅助关联分类算法   总被引:4,自引:0,他引:4  
张明卫  朱志良  刘莹  张斌 《软件学报》2015,26(11):2795-2810
在很多现实的分类应用中,新数据的类标需要由领域专家最终确定,而分类器的分类结果仅起辅助作用.另外,随着大数据所隐含价值越发被人们重视,分类器的训练会从面向单一数据集逐渐过渡到面向分布式空间数据集,大数据环境下辅助分类也将成为未来分类应用的重要分支.然而,现有的分类研究缺乏对此类应用的关注.大数据环境中的辅助分类面临以下3个问题:1) 训练集是分布式大数据集;2) 在空间上,训练集所包含的各局部数据源的类别分布不尽相同;3) 在时间上,训练集是动态变化的,会发生类别迁移现象.在考虑以上问题的基础上,提出一种大数据环境中分布式辅助关联分类方法.该方法首先给出一种大数据环境中分布式关联分类器构建算法,在该算法中,通过横向加权考虑分类数据集在空间上的类别分布差异,并给出"前件空间支持度-相关系数"的度量框架,改进关联分类算法面对不平衡数据的性能缺陷;然后,给出一种基于适应因子的辅助关联分类器动态调整方法,能够在分类器应用过程中充分利用领域专家实时反馈的结果对分类器进行动态调整,以提升其面向动态数据集的分类性能,减缓分类器的退化和重新训练的频率.实验结果表明,该方法能够面向分布式数据集较快地训练出有较高分类准确率的关联分类器,并在数据集不断扩充变化时提升分类性能,是一种有效的大数据环境中辅助分类应用方法.  相似文献   

11.
翟俊海    刘博  张素芳 《智能系统学报》2017,12(3):397-404
特征选择是指从初始特征全集中,依据既定规则筛选出特征子集的过程,是数据挖掘的重要预处理步骤。通过剔除冗余属性,以达到降低算法复杂度和提高算法性能的目的。针对离散值特征选择问题,提出了一种将粗糙集相对分类信息熵和粒子群算法相结合的特征选择方法,依托粒子群算法,以相对分类信息熵作为适应度函数,并与其他基于进化算法的特征选择方法进行了实验比较,实验结果表明本文提出的方法具有一定的优势。  相似文献   

12.
一种基于组策略的过滤式特征选择算法   总被引:1,自引:0,他引:1  
MRMR算法具有快速、高效等优势,在处理高维数据方面较为流行。基于此,提出一种基于组策略的MRMR改进算法(MRMRE),该算法不仅考虑单个特征属性的相关性与冗余性,同时针对特征组间的相互关系进行研究。算法以MRMR算法为框架,以CCA作为度量基准,选择SVMs作为基分类器,使其特征选择效果提升。在UCI机器学习数据库中图像与基因序列数据集上的大量实验表明:与MRMR算法相比,所提出的算法其特征选择结果具有更高的结果稳定性与分类精度。  相似文献   

13.
刘海燕  王超  牛军钰 《计算机工程》2012,38(14):135-137
针对传统特征选择算法只专注于特征类相关性或者特征冗余性的问题,提出一种基于条件互信息的特征选择算法。该算法采用k-means的基本思想聚类特征,并从中选出类相关度最大的特征,从而去除不相关和冗余特征。实验使用5个数据集,结果表明,该算法的分类性能优于传统特征选择算法。  相似文献   

14.
A new improved forward floating selection (IFFS) algorithm for selecting a subset of features is presented. Our proposed algorithm improves the state-of-the-art sequential forward floating selection algorithm. The improvement is to add an additional search step called “replacing the weak feature” to check whether removing any feature in the currently selected feature subset and adding a new one at each sequential step can improve the current feature subset. Our method provides the optimal or quasi-optimal (close to optimal) solutions for many selected subsets and requires significantly less computational load than optimal feature selection algorithms. Our experimental results for four different databases demonstrate that our algorithm consistently selects better subsets than other suboptimal feature selection algorithms do, especially when the original number of features of the database is large.  相似文献   

15.
针对行人重识别问题中人体姿态变化、对齐及部分遮挡等情况,提出了一种基于深度学习的局部区域选择和局部特征提取算法。算法首先利用残差卷积神经网络获取基本特征,然后利用多尺度的滑动窗口提取不同候选局部区域特征,并按照覆盖区域进行分组,每组选择一个最优局部特征,并融合整体特征得到最终特征表达。实验结果表明,通过该方法提取的局部特征具有更好的表达能力,提高了行人重识别的精确度。  相似文献   

16.
针对软件缺陷数据集中不相关特征和冗余特征会降低软件缺陷个数预测模型的性能的问题,提出了一种面向软件缺陷个数预测的混合式特征选择方法-HFSNFP。首先,利用ReliefF算法计算每个特征与缺陷个数之间的相关性,选出相关性最高的m个特征;然后,基于特征之间的关联性利用谱聚类对这m个特征进行聚类;最后,利用基于包裹式特征选择思想从每个簇中依次挑选最相关的特征形成最终的特征子集。实验结果表明,相比于已有的五种过滤式特征选择方法,HFSNFP方法在提高预测率的同时降低了误报率,且G-measure与RMSE度量值更佳;相比于已有的两种包裹式特征选择方法,HFSNFP方法在保证了缺陷个数预测性能的同时可以显著降低特征选择的时间。  相似文献   

17.
针对监督分类中的特征选择问题, 提出一种基于量子进化算法的包装式特征选择方法. 首先分析了现有子集评价方法存在过度偏好分类精度的缺点, 进而提出基于固定阈值和统计检验的两种子集评价方法. 然后改进了量子进化算法的进化策略, 即将整个进化过程分为两个阶段, 分别选用个体极值和全局极值作为种群的进化目标. 在此基础上, 按照包装式特征选择遵循的一般框架设计了特征选择算法. 最后, 通过15个UCI数据集分别验证了子集评价方法和进化策略的有效性, 以及新方法相较于其它6种特征选择方法的优越性. 结果表明, 新方法在80%以上的数据集上取得相似甚至更好的分类精度, 在86.67%的数据集上选择了特征个数更小的子集.  相似文献   

18.
维度灾难是机器学习任务中的常见问题,特征选择算法能够从原始数据集中选取出最优特征子集,降低特征维度.提出一种混合式特征选择算法,首先用卡方检验和过滤式方法选择重要特征子集并进行标准化缩放,再用序列后向选择算法(SBS)与支持向量机(SVM)包裹的SBS-SVM算法选择最优特征子集,实现分类性能最大化并有效降低特征数量.实验中,将包裹阶段的SBS-SVM与其他两种算法在3个经典数据集上进行测试,结果表明,SBS-SVM算法在分类性能和泛化能力方面均具有较好的表现.  相似文献   

19.
A genetic algorithm-based method for feature subset selection   总被引:5,自引:2,他引:3  
As a commonly used technique in data preprocessing, feature selection selects a subset of informative attributes or variables to build models describing data. By removing redundant and irrelevant or noise features, feature selection can improve the predictive accuracy and the comprehensibility of the predictors or classifiers. Many feature selection algorithms with different selection criteria has been introduced by researchers. However, it is discovered that no single criterion is best for all applications. In this paper, we propose a framework based on a genetic algorithm (GA) for feature subset selection that combines various existing feature selection methods. The advantages of this approach include the ability to accommodate multiple feature selection criteria and find small subsets of features that perform well for a particular inductive learning algorithm of interest to build the classifier. We conducted experiments using three data sets and three existing feature selection methods. The experimental results demonstrate that our approach is a robust and effective approach to find subsets of features with higher classification accuracy and/or smaller size compared to each individual feature selection algorithm.  相似文献   

20.
框架排歧指的是在一个给定的句子中,判断句中目标词激起的语义场景与该目标词可能激起的哪个框架一致,则将该框架分配给当前的目标词。框架排歧最重要的一个步骤就是特征选择,目前常用的方法是人工特征选择方法,但是这种方法不能有效地利用每个目标词的语义特征,而且大量实验表明,不同的目标词取得最好的结果时所用的特征模板是不同的。因此,该文为每个目标词设置一个特征模板,并提出了特征模板的自动选择算法,首先从语料中抽取特征构成特征集,然后利用打分机制,把特征集中得分最高的特征逐个加入到特征模板中,直到相邻两次的得分不再增加。该文借助汉语框架网语义资源,利用最大熵模型建模,使用自动特征选择算法选出特征模板,并进行5-fold交叉验证,平均精确率可达到84.46%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号