首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
极大熵Relief特征加权   总被引:3,自引:0,他引:3  
Relief特征加权的最新研究进展表明其可近似地表述为一个间距最大化优化问题.尽管该类算法广为应用,但仍然存在一些缺陷.为了提高Relief特征加权的适应性和鲁棒性,融合间距最大化和极大熵理论,并由此探讨了新的鲁棒的具有更好适应性的Relief特征加新方法.首先,构造了一个结合极大熵原理的间距最大化目标函数.对于该目标函数,运用优化理论得到一些重要的理论结果.在此基础上,对于两类数据、多类数据和在线数据,提出了一组鲁棒的Relief特征加权算法.利用UCI基准数据集和基因数据集进行了实验验证,结果表明提出的新Relief特征加权算法对噪音和例外点显示出了更好的适应性和鲁棒性.  相似文献   

2.
杨帅  王浩  俞奎  曹付元 《软件学报》2023,34(7):3206-3225
稳定学习的目标是利用单一的训练数据构造一个鲁棒的预测模型,使其可以对任意与训练数据具有相似分布的测试数据进行精准的分类.为了在未知分布的测试数据上实现精准预测,已有的稳定学习算法致力于去除特征与类标签之间的虚假相关关系.然而,这些算法只能削弱特征与类标签之间部分虚假相关关系并不能完全消除虚假相关关系;此外,这些算法在构建预测模型时可能导致过拟合问题.为此,提出一种基于实例加权和双分类器的稳定学习算法,所提算法通过联合优化实例权重和双分类器来学习一个鲁棒的预测模型.具体而言,所提算法从全局角度平衡混杂因子对实例进行加权来去除特征与类标签之间的虚假相关关系,从而更好地评估每个特征对分类的作用.为了完全消除数据中部分不相关特征与类标签之间的虚假相关关系以及弱化不相关特征对实例加权过程的干扰,所提算法在实例加权之前先进行特征选择筛除部分不相关特征.为了进一步提高模型的泛化能力,所提算法在训练预测模型时构建两个分类器,通过最小化两个分类器的参数差异来学习一个较优的分类界面.在合成数据集和真实数据集上的实验结果表明了所提方法的有效性.  相似文献   

3.
为了改善传统Relief算法适应性和鲁棒性差的缺陷,融合间距最大化、信息熵和分类局部一致性,构造了新的间距最大化目标函数,并进一步对目标函数进行优化,得到一些新的理论结果。在此基础上提出了新的基于两类数据的Relief特征加权算法LIE-Relief-T(Local consistency information entropy Relief algorithm based twoclass data),并将其扩展到多类数据的特征加权算法LIE-Relief-MLocal consistency information entropy Relief algorithm based multi-class data)。利用UCI和基因表达数据集进行实验验证,结果表明该新的Relief特征加权算法分类错误率较低,对噪声和野点表现出了更好的适应性和鲁棒性。  相似文献   

4.
大数据的类别不平衡与维度爆炸问题严重影响着算法的预测效率和分类精度。因此,提出了一种基于插值与特征压缩的大数据分类方法ASE-RFXT。改进ADASYN(adaptive synthetic sampling approach)的插值中心,减少了噪声的引入,改善了少数类样本的分布。改进ReliefF(特征权重法),并将它与集成算法XGDT(extreme gradient dart tree)结合对特征进行并行加权,减少了权重受异常值的影响,使得评估更加准确。利用特征之间的相关性过滤低权重冗余特征,以XGDT的分类精度为评价指标通过SFS(sequential forward selection)压缩特征。实验结果表明ASE-RFXT方法可以降低特征维度,节约训练时间,提高不平衡小样本数据的分类精度。  相似文献   

5.
为挖掘数据的非独立同分布关系并解决传统KNN算法中存在的分类结果不准确的问题,提出一种非独立同分布下数值型数据的KNN改进算法.利用Pearson相关系数公式得出耦合相似度矩阵,通过该耦合相似度矩阵计算样本的类隶属度,通过Relief F算法思想进行特征权重的计算,根据训练样本的类隶属度和特征权重更新类别决策规则,确定待分类样本的类别.对多个UCI数据集的验证结果表明,该算法能够有效提高分类准确率.  相似文献   

6.
壳近邻分类算法克服了k近邻分类在近邻选择上可能存在偏好的问题,使得在大数据集上的分类效果优于k近邻分类,为了进一步提高壳近邻算法的分类性能,提出了基于Relief特征加权的壳近邻分类算法.该算法在Relief算法的基础上求解训练集的特征权值,并利用特征权值来改进算法的距离度量方法和投票机制.实验结果表明,该算法在小数据和大数据上的分类性能都优于k近邻和壳近邻分类算法.  相似文献   

7.
为实现对电气事故快速、准确和动态的分类,提出一种有机结合实例和属性加权的朴素贝叶斯电气事故分类方法(AIWNB)。朴素贝叶斯分类方法中的先验概率和条件概率采用两种实例加权方式加以改进,积极实例权值取决于各属性值频度的统计值,而消极实例权值通过逐条计算训练实例与测试实例间的相关性加以确定。属性权值则基于互信息定义为属性-属性相关性和属性-类相关性之间的残差。所提出的AIWNB方法将属性加权和实例加权有机结合在朴素贝叶斯统一框架内,利用高低压用户的电气实测数据进行验证,实验结果表明,与朴素贝叶斯相比,加权后的朴素贝叶斯方法更具竞争性,准确率和F1分数可提升3.09%和9.39%,证明所提的AIWNB算法在电气事故分类的实用性及有效性,并可推广至其他分类情形。  相似文献   

8.
汪敏  武禹伯  闵帆 《计算机应用》2005,40(12):3437-3444
针对传统岩性识别方法识别精度低,难以和地质经验有机结合的问题,提出了一种基于多种聚类算法和多元线性回归的多分类主动学习算法(ALCL)。首先,通过多种异构聚类算法聚类得到对应每种算法的类别矩阵,并通过查询公共点对类别矩阵进行标记和预分类;其次,提出优先级最大搜寻策略和最混乱查询策略选取用于训练聚类算法权重系数模型的关键实例;然后,定义目标求解函数,通过训练关键实例求解得到每种聚类算法的权重系数;最后,结合权重系数进行分类计算,从而对结果置信度高的样本进行分类。应用大庆油田油井的6个公开岩性数据集进行实验,实验结果表明,ALCL的分类精度最高时,比传统监督学习算法和其他主动学习算法提高了2.07%~14.01%。假设检验和显著性分析的结果验证了ALCL在岩性识别问题上具有更好的分类效果。  相似文献   

9.
概念漂移是数据流学习领域中的一个难点问题,同时数据流中存在的类不平衡问题也会严重影响算法的分类性能。针对概念漂移和类不平衡的联合问题,在基于数据块集成的方法上引入在线更新机制,结合重采样和遗忘机制提出了一种增量加权集成的不平衡数据流分类方法(incremental weighted ensemble for imbalance learning, IWEIL)。该方法以集成框架为基础,利用基于可变大小窗口的遗忘机制确定基分类器对窗口内最近若干实例的分类性能,并计算基分类器的权重,随着新实例的逐个到达,在线更新IWEIL中每个基分器及其权重。同时,使用改进的自适应最近邻SMOTE方法生成符合新概念的新少数类实例以解决数据流中类不平衡问题。在人工数据集和真实数据集上进行实验,结果表明,相比于DWMIL算法,IWEIL在HyperPlane数据集上的G-mean和recall指标分别提升了5.77%和6.28%,在Electricity数据集上两个指标分别提升了3.25%和6.47%。最后,IWEIL在安卓应用检测问题上表现良好。  相似文献   

10.
局部区域特征的重要程度对三维CAD模型的分类有很大影响.针对现有聚类算法未能有效利用此关键特征实现聚类,提出一种基于局部区域的加权谱聚类算法.该算法按局部区域在模型库中出现的频次计算权重,提高出现频次低但区分能力强的局部区域的重要程度,从而降低常见局部区域的重要程度;并将上述表达与严重依赖模型间相似度的加权谱聚类算法相结合作为权重信息.实验结果显示,该方法能较好地完成三维CAD模型聚类任务,最终得到的NMI值、V-measure值对比当前最优方法所得结果分别提高3%、4%.  相似文献   

11.
目前机器视觉应用广泛,视频目标跟踪的过程中会遇到各种挑战。为解决单一特征鲁棒性差,模型和尺度更新机制不健全的问题,提出了一种将自适应加权特征融合方法与置信度模型及尺度更新机制相结合的相关滤波目标跟踪算法。算法将互补的梯度和颜色特征进行融合,通过计算各特征滤波响应来决定下一帧在融合特征中各自所占的权重,凸显优势特征,使目标与背景更具区分度。同时引入置信度更新机制,防止模型更新引入遮挡物、相似干扰,提高正确率。最后提出一种新的尺度更新策略,简化冗余代码,使跟踪更精确的同时降低时间代价。实验结果证明,该算法在精度和正确率上都比几种现有相关滤波算法更优,应对相似目标干扰和遮挡情况具有更高鲁棒性。对相关滤波算法进行了改进,加入了特征融合和更新机制,使算法提高了跟踪效果,具有一定的应用价值。  相似文献   

12.
学习类属特征方法为每个标签选择特有特征并考虑成对标签的相关性以降低维度,可有效解决多标签分类遇到的维度过大问题,但缺乏对实例相关性的考虑.针对此问题,文中提出基于类属特征和实例相关性的多标签分类算法,不仅考虑标签相关性还考虑实例特征的相关性.通过构建相似性图,学习实例特征空间的相似性.在8个数据集上的实验表明,文中算法可有效提取类属特征,具有较好的分类性能.  相似文献   

13.
基于标记特征的多标记分类算法通过对标记的正反样例集合进行聚类,计算样例与聚类中心间的距离构造样例针对标记的特征子集,并生成新的训练集,在新的训练集上利用传统的二分类器进行分类。算法在构造特征子集的过程中采用等权重方式,忽略了样例之间的相关性。提出了一种改进的多标记分类算法,通过加权方式使生成的特征子集更加准确,有助于提高样例的分类精度。实验表明改进的算法性能优于其他常用的多标记分类算法。  相似文献   

14.
Xu  Ruohao  Li  Mengmeng  Yang  Zhongliang  Yang  Lifang  Qiao  Kangjia  Shang  Zhigang 《Applied Intelligence》2021,51(10):7233-7244

Feature selection is a technique to improve the classification accuracy of classifiers and a convenient data visualization method. As an incremental, task oriented, and model-free learning algorithm, Q-learning is suitable for feature selection, this study proposes a dynamic feature selection algorithm, which combines feature selection and Q-learning into a framework. First, the Q-learning is used to construct the discriminant functions for each class of the data. Next, the feature ranking is achieved according to the all discrimination functions vectors for each class of the data comprehensively, and the feature ranking is doing during the process of updating discriminant function vectors. Finally, experiments are designed to compare the performance of the proposed algorithm with four feature selection algorithms, the experimental results on the benchmark data set verify the effectiveness of the proposed algorithm, the classification performance of the proposed algorithm is better than the other feature selection algorithms, meanwhile the proposed algorithm also has good performance in removing the redundant features, and the experiments of the effect of learning rates on the our algorithm demonstrate that the selection of parameters in our algorithm is very simple.

  相似文献   

15.
现有的类属属性学习方法在提取类别标签的特征时,大多仅单一考虑标签间的相关性,忽略实例和实例间以及特征与特征间的相关性,可能会降低分类精度.为了解决此问题,文中设计多类别相关性结合的类属属性多标签学习算法,考虑标签相关性、特征相关性和实例相关性.利用标签之间的余弦相似度计算标签相关性,构建相似图矩阵计算特征相关性和实例相关性.文中算法紧凑地选择标签的类属属性,提高分类精度,有效解决多标签分类遇到的维度过大问题.  相似文献   

16.
提出了一种基于遗传算法的大数据特征选择算法。该算法首先对各维度的特征进行评估,根据每个特征在同类最近邻和异类最近邻上的差异度调整其权重,基于特征权重引导遗传算法的搜索,以提升算法的搜索能力和获取特征的准确性;然后结合特征权重计算特征的适应度,以适应度作为评价指标,启动遗传算法获取最优的特征子集,并最终实现高效准确的大数据特征选择。通过实验分析发现,该算法能够有效减小分类特征数,并提升特征分类准确率。  相似文献   

17.
程玉胜  陈飞  王一宾 《计算机应用》2018,38(11):3105-3111
针对传统特征选择算法无法处理流特征数据、冗余性计算复杂、对实例描述不够准确的问题,提出了基于粗糙集的数据流多标记分布特征选择算法。首先,将在线流特征选择框架引入多标记学习中;其次,用粗糙集中的依赖度替代原有的条件概率,仅仅利用数据自身的信息计算,使得数据流特征选择算法更加高效快捷;最后,由于在现实世界中,每个标记对实例的描述程度并不相同,为更加准确地描述实例,将传统的逻辑标记用标记分布的形式进行刻画。在多组数据集上的实验表明,所提算法能保留与标记空间有着较高相关性的特征,使得分类精度相较于未进行特征选择的有一定程度的提高。  相似文献   

18.
传统分类系统往往选择朴素贝叶斯算法作为分类算法,在研究过程中,发现朴素贝叶斯模型(NBC)具有以下前提条件:所有特征互不影响,并且特征属性的权重为1.研究后发现并非如此,在对数据进行分类时,有的特征可能对分类结果的影响较大,有的可能对结果影响较小.为了对算法进行优化,需要给不同的特征附上不同的权重值,才能更加客观的获得分类结果.本文研究了两种传统的基于属性权重的计算方法,同时考虑到手机取证数据的特点,提出两种适应于手机取证数据的改进权重计算方法,并对其改进原理进行研究,比较改进后的权重计算方法与传统的权重计算方法,在使用相同分类算法与相同数据的情况下,对分类结果的影响.  相似文献   

19.
A local boosting algorithm for solving classification problems   总被引:1,自引:0,他引:1  
Based on the boosting-by-resampling version of Adaboost, a local boosting algorithm for dealing with classification tasks is proposed in this paper. Its main idea is that in each iteration, a local error is calculated for every training instance and a function of this local error is utilized to update the probability that the instance is selected to be part of next classifier's training set. When classifying a novel instance, the similarity information between it and each training instance is taken into account. Meanwhile, a parameter is introduced into the process of updating the probabilities assigned to training instances so that the algorithm can be more accurate than Adaboost. The experimental results on synthetic and several benchmark real-world data sets available from the UCI repository show that the proposed method improves the prediction accuracy and the robustness to classification noise of Adaboost. Furthermore, the diversity-accuracy patterns of the ensemble classifiers are investigated by kappa-error diagrams.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号