首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 390 毫秒
1.
针对现有的半监督多标签特征选择方法利用l2-范数建立谱图易受到噪声影响的问题,文中提出一种鲁棒的半监督多标签特征选择方法,利用全局线性回归函数建立多标签特征选择模型,结合l1图获取局部描述信息提高模型准确度,引入l2,1约束提升特征之间可区分度和回归分析的稳定性,避免噪声干扰。在4种开源数据集上借助多种性能评价标准验证所提出方法,结果表明:本文方法能有效提高分类模型的准确性和对外界噪声的抗干扰性。  相似文献   

2.
赵敏  刘惊雷 《计算机科学》2021,48(7):137-144
聚类是将给定的样本分成几个不同的簇,它在机器学习、数据挖掘等领域得到了广泛应用,并受到研究人员的广泛关注.但是,传统的聚类方法仍然存在3个方面的不足.首先,由于一些数据中存在噪声和异常值,传统的聚类方法容易产生误差较大的目标函数.其次,传统的聚类方法没有使用监督信息来指导构建相似矩阵.最后,加入图正则的聚类方法在计算相似度矩阵时,邻居关系都是确定的,一旦计算错误就会导致构造图的质量低,进而影响聚类性能.因此,提出了一种基于高斯场和自适应图正则化的半监督聚类(SCGFAG)模型.该模型通过高斯场及谐波函数法引入监督信息,来指导构建相似度矩阵,实现半监督学习,还引入稀疏误差矩阵来表示稀疏噪声,如脉冲噪声、死线和条纹,并且使用l1范数来缓解稀疏噪声.此外,所提模型还引入l2,1范数来处理异常值的影响.因此,SCGFAG对数据噪声和异常值不敏感.更重要的是,SCGFAG通过引入自适应图的正则化提高了聚类性能.为了实现优化聚类的目标,提出了一种迭代更新算法—增广拉格朗日法(Augmented Lagrangian Method,ALM),分别对优化变量进行更新.在4个数据集上进行的实验表明,所提方法优于相比较的8种经典聚类方法获得了更好的聚类性能.  相似文献   

3.
为了构造一个能够较好反映数据真实分布的图以提高分类性能,文中提出基于l1范数和k近邻叠加图的半监督分类算法。首先构造一个l1范数图,作为主图,然后构造一个k近邻图,作为辅图,最后将二者按一定比例叠加,得到l1范数和k近邻叠加(LNKNNS)图。实验中选择标记样本比例从5%到25%,将基于LNKNNS图的半监督分类算法在USPS数据库上对比其它图(指数权重图、k近邻图、低秩表示图和l1范数图)的算法。实验表明,文中算法的分类识别率更高,更适合基于图的半监督学习。  相似文献   

4.
为了从压缩采样数据快速有效地恢复自然图像,提出了一种结合近似l0范数和近似总体变分(TV)的压缩采样图像恢复算法模型——TVSl0,并在恢复算法中引入模拟退火方法来实现快速恢复.该模型以最小化近似l0范数为基础,融入了反映图像结构特点的近似TV范数,体现出该模型对图像空域变化有限这一特点的适应性;并使用连续近似函数解决了l0范数的不连续问题.针对典型自然图像恢复的实验结果验证了文中算法的有效性和可行性,其恢复质量和基本TV模型的方法相当,但迭代次数少、计算复杂度低.  相似文献   

5.
基于Grassmann流形的多聚类特征选择   总被引:1,自引:0,他引:1       下载免费PDF全文
在无监督聚类特征选择过程中,局部欧氏度量可能置乱局部流形的拓扑结构,影响所选特征的聚类性能。为此,提出一种基于Grassmann流形的多聚类特征选择算法。利用局部主成分分析逼近数据点的切空间,获取局部数据的主要变化方向。根据切空间构造Grassmann流形,通过测地距保留局部数据的流形拓扑结构,以L1范数优化逼近流形拓扑,选择利于聚类的原本数据特征。实验结果验证了该算法的有效性。  相似文献   

6.
项目文档主题表征的好坏直接影响后续评审专家的推荐效果.为有效利用项目文档片段之间的关联关系进行项目主题分析,提出一种基于半监督图聚类的项目主题模型构建方法.该方法首先分析项目文档的结构特点,提取项目名称、项目关键字等能表征主题的结构信息,结合专家证据文档、专家主题关系网等能表征专家主题的外部资源,定义及提取项目文档片段之间的关联关系特征;然后,利用不同类型的关联关系计算项目文档片段之间的相关性,构建项目文档片段间的无向图模型;最后,利用已标记关联关系特征作为聚类的监督信息,采用半监督图聚类算法对项目文档片段进行聚类,从而实现项目主题的提取.项目主题提取对比实验结果验证了所提方法的有效性,项目文档结构化特征、专家证据文档以及专家主题关系网对项目主题模型的构建具有一定的指导作用.  相似文献   

7.
特征选择旨在选择待处理数据中最具代表性的特征,降低特征空间的维度.文中提出基于局部判别约束的半监督特征选择方法,充分利用已标记样本和未标记样本训练特征选择模型,并借助相邻数据间的局部判别信息提高模型的准确度,引入l2,1约束提高特征之间可区分度,避免噪声干扰.最后通过实验验证文中方法的有效性.  相似文献   

8.
为了在揭示数据全局结构的同时保留其局部结构,本文将特征自表达和图正则化统一到同一框架中,给出了一种新的无监督特征选择(unsupervised feature selection,UFS)模型与方法。模型使用特征自表达,用其余特征线性表示每一个特征,以保持特征的局部结构;用基于 ${L_{2, 1}}$ 范数的图正则化项,在保留数据的局部几何结构的同时可以降低噪声数据对特征选择的影响;除此之外,在权重矩阵上施加了低秩约束,保留数据的全局结构。在6个不同的公开数据集上的实验表明,所给算法明显优于其他5个对比算法,表明了所提出的UFS框架的有效性。  相似文献   

9.
传统的基于拉普拉斯图的半监督特征选择算法处理高维、少标签样本时,缺乏外推能力且对数据异常值的鲁棒性差.基于此,提出一种基于Hessian正则的自适应损失半监督稀疏特征选择算法.首先,为提升线性映射能力,利用Hessian正则保留数据的局部流形结构;其次,为增强模型对具有较小或者较大损失数据的鲁棒性,引入自适应损失函数,通过调节自适应损失参数确定最小损失;再次,采用$l_{2,p  相似文献   

10.
特征选择是去除不相关和冗余特征,找到具有良好泛化能力的原始特征的紧凑表示,同时,数据中含有的噪声和离群点会使学习获得的系数矩阵的秩变大,使得算法无法捕捉到高维数据中真实的低秩结构。因此,利用Schatten-p范数逼近秩最小化问题和特征自表示重构无监督特征选择问题中的系数矩阵,建立一个基于Schatten-p范数和特征自表示的无监督特征选择(SPSR)算法,并使用增广拉格朗日乘子法和交替方向法乘子法框架进行求解。最后在6个公开数据集上与经典无监督特征选择算法进行实验比较,SPSR算法的聚类精度更高,可以有效地识别代表性特征子集。  相似文献   

11.
利用比l1-范数最小化更高效的l2-范数最小化算法,提出了一种在多种人脸数据库上整体更为准确,且比经典基于稀疏表示的人脸分类算法更高效的人脸识别算法。它在传统的训练字典中加入了一个特征矩阵,增大特征信息在字典矩阵中的比重,从而提高识别的准确性。在一系列的实验结果中得出,该人脸识别算法比现有的其他几种典型算法更加准确,而且对噪声和遮挡块的抗干扰性也更强。  相似文献   

12.
张要  马盈仓  朱恒东  李恒  陈程 《计算机工程》2022,48(3):90-99+106
对于多标签特征选择算法,通常假设数据与标签间呈现某种关系,以该关系为基础并通过正则项的约束可解决多标签特征选择问题,但该关系也可能是两种或多种关系的结合。为准确描述数据与标签间的关系并去除不相关的特征和冗余特征,基于logistic回归模型与标签流形结构提出多标签特征选择算法FSML。使用logistic回归模型的损失函数学习回归系数矩阵,利用标签流形结构学习数据特征的权重矩阵,通过L2,1-范数将系数矩阵和权重矩阵进行柔性结合,约束系数矩阵与权重矩阵的稀疏性并实现多标签特征选择。在经典多标签数据集上的实验结果表明,与CMLS、SCLS等特征选择算法相比,FSML算法在汉明损失、排名损失、1-错误率、覆盖率、平均精度等5个性能评价指标上表现良好,能更准确地描述数据与标签间的关系。  相似文献   

13.
提出了一种基于两步法的欠定盲源分离新算法。在混合矩阵估计阶段,采用基于势函数的聚类方法,在源信号恢复阶段,提出一种快速的稀疏信号重构算法,通过定义一个连续可微函数来近似[?0]范数,使得[?0]范数可解。该算法的特点是实现简单、速度快。仿真实验表明,与现有的采用快速[?1]范数最小化和OMP算法的欠定盲源分离方法相比,提出的算法在保证分离性能的前提下大幅度提高了算法的运行速度。  相似文献   

14.
为解决高维数据在分类时造成的“维数灾难”问题,提出一种新的将核函数与稀疏学习相结合的属性选择算法。具体地,首先将每一维属性利用核函数映射到核空间,在此高维核空间上执行线性属性选择,从而实现低维空间上的非线性属性选择;其次,对映射到核空间上的属性进行稀疏重构,得到原始数据集的一种稀疏表达方式;接着利用L 1范数构建属性评分选择机制,选出最优属性子集;最后,将属性选择后的数据用于分类实验。在公开数据集上的实验结果表明,该算法能够较好地实现属性选择,与对比算法相比分类准确率提高了约3%。  相似文献   

15.
目前大部分已经存在的多标记学习算法在模型训练过程中所采用的共同策略是基于相同的标记属性特征集合预测所有标记类别.但这种思路并未对每个标记所独有的标记特征进行考虑.在标记空间中,这种标记特定的属性特征对于区分其它类别标记和描述自身特性是非常有帮助的信息.针对这一问题,本文提出了基于标记特定特征和相关性的ML-KNN改进算法MLF-KNN.不同于之前的多标记算法直接在原始训练数据集上进行操作,而是首先对训练数据集进行预处理,为每一种标记类别构造其特征属性,在得到的标记属性空间上进一步构造L1-范数并进行优化从而引入标记之间的相关性,最后使用改进后的ML-KNN算法进行预测分类.实验结果表明,在公开数据集image和yeast上,本文提出的算法MLF-KNN分类性能优于ML-KNN,同时与其它另外3种多标记学习算法相比也表现出一定的优越性.  相似文献   

16.
无监督特征选择可以降低数据维数,提高算法的学习性能,是机器学习和模式识别等领域中的重要研究课题。和大多数在目标函数中引入稀疏正则化解决松弛问题的方法不同,提出了一种基于最大熵和l2,0范数约束的无监督特征选择算法。使用具有唯一确定含义的l2,0范数等式约束,即选择特征的数量,不涉及正则化参数的选取,避免调整参数。结合谱分析探索数据的局部几何结构并基于最大熵原理自适应的构造相似矩阵。通过增广拉格朗日函数法,设计了一种交替迭代优化算法对模型求解。在四个真实数据集上与其他几种无监督特征选择算法的对比实验,验证了所提算法的有效性。  相似文献   

17.
蛋白质复合物是细胞结构和生化机制的研究基础,如何准确识别蛋白质复合物成为近年来的研究热点。针对传统算法根据结构信息对蛋白质复合物进行搜索存在敏感度和F-measure低的问题,以及现有监督学习算法根据人为构造特征进行蛋白质复合物识别存在特征构造不能较好地反映图的真实信息等不足,提出了graph2vec-SVM识别算法。将蛋白质复合物看作稠密子图并考虑子图模块度大小,利用graph2vec将图信息转换为向量,并进一步采用SVM分类器对蛋白质复合物进行识别,提高了蛋白质复合物识别的敏感度和F-measure。该算法分别与目前流行的4种非监督学习算法(ClusterOne、CMC、HC-PIN和COACH)和3种监督学习算法(SCI-BN、SCI-SVM和RM)进行比较,在精准度、敏感度和F-measure 3项指标上都显示出了良好的性能。  相似文献   

18.
Feature subset selection is basically an optimization problem for choosing the most important features from various alternatives in order to facilitate classification or mining problems. Though lots of algorithms have been developed so far, none is considered to be the best for all situations and researchers are still trying to come up with better solutions. In this work, a flexible and user-guided feature subset selection algorithm, named as FCTFS (Feature Cluster Taxonomy based Feature Selection) has been proposed for selecting suitable feature subset from a large feature set. The proposed algorithm falls under the genre of clustering based feature selection techniques in which features are initially clustered according to their intrinsic characteristics following the filter approach. In the second step the most suitable feature is selected from each cluster to form the final subset following a wrapper approach. The two stage hybrid process lowers the computational cost of subset selection, especially for large feature data sets. One of the main novelty of the proposed approach lies in the process of determining optimal number of feature clusters. Unlike currently available methods, which mostly employ a trial and error approach, the proposed method characterises and quantifies the feature clusters according to the quality of the features inside the clusters and defines a taxonomy of the feature clusters. The selection of individual features from a feature cluster can be done judiciously considering both the relevancy and redundancy according to user’s intention and requirement. The algorithm has been verified by simulation experiments with different bench mark data set containing features ranging from 10 to more than 800 and compared with other currently used feature selection algorithms. The simulation results prove the superiority of our proposal in terms of model performance, flexibility of use in practical problems and extendibility to large feature sets. Though the current proposal is verified in the domain of unsupervised classification, it can be easily used in case of supervised classification.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号