首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
常见的无监督特征选择方法考虑的只是选择具有判别性的特征,而忽略了特征的冗余性,并且没有考虑到小类问题,故而影响到分类性能.基于此背景,提出鲁棒不相关回归算法.首先,对不相关回归进行研究,使用不相关正交约束,以便找出不相关但具有判别性的特征,不相关约束使得数据结构保持在Stiefel流形中,使模型具有封闭解,避免了传统的...  相似文献   

2.
针对无标签高维数据的大量出现,对机器学习中无监督特征选择进行了研究。提出了一种结合自表示相似矩阵和流形学习的无监督特征选择算法。首先,通过数据的自表示性质,构建相似矩阵,结合低维流形能够表示高维数据结构这一流形学习思想,建立一种考虑流形学习的无监督特征选择优化模型。其次,为了保证选择更有用及更稀疏的特征,采用◢l◣▼2,1▽范数对优化模型进行约束,使特征之间相互竞争,消除冗余。进而,通过变量交替迭代对优化模型进行求解,并证明了算法的收敛性。最后,通过与其他几个无监督特征算法在四个数据集上的对比实验,表明所给算法的有效性。  相似文献   

3.
针对现有的半监督多标签特征选择方法利用l2-范数建立谱图易受到噪声影响的问题,文中提出一种鲁棒的半监督多标签特征选择方法,利用全局线性回归函数建立多标签特征选择模型,结合l1图获取局部描述信息提高模型准确度,引入l2,1约束提升特征之间可区分度和回归分析的稳定性,避免噪声干扰。在4种开源数据集上借助多种性能评价标准验证所提出方法,结果表明:本文方法能有效提高分类模型的准确性和对外界噪声的抗干扰性。  相似文献   

4.
针对基于稀疏回归的多标签特征选择方法中数据的特征和标签之间线性关系假设不成立的问题,提出一种基于依赖最大化和稀疏回归的多标签特征选择方法 (multi-label feature selection with dependence maximization and sparse regression,DMSR)。构建数据的低维子空间,最大化低维空间与数据的标签空间之间的依赖性,使用希尔伯特-施密特独立性准则作为依赖性的计算依据,将数据从特征空间映射到该低维空间,设计一种交替优化的算法对稀疏回归模型进行求解,得到用于特征选择的投影矩阵。在多个不同类型的多标签数据集上的实验结果表明,所提算法的性能优于其它对比算法。  相似文献   

5.
针对高维无标签数据中的特征冗余问题,提出一种基于特征正则稀疏关联的无监督特征选择方法 (FRSA)。建立特征选择模型:利用Frobenius范数建立损失函数项表示特征之间的关联关系,对特征权重矩阵施加L1稀疏正则化约束。设计一种分治-收缩阈值迭代算法对目标函数进行优化。根据特征权重评估每个特征的重要性,选择出具有代表性的特征。在6个不同类型的标准数据集上与目前常用的无监督特征选择方法进行对比实验,实验结果表明,所提方法的性能优于其它无监督特征选择方法。  相似文献   

6.
无监督主题模型在降维过程中缺少标签信息的指导,丢失一些具有判别性的文本特征,导致最终的分类结果不理想.因此,文中提出结合深度学习的监督主题模型,利用深度网络强大的非线性拟合能力建立文档主题分布与标签之间的映射,利用变分期望最大化(EM)和深度网络训练方法共同完成贝叶斯框架下模型参数的更新,通过改变网络结构和激活函数的类型,用于分类和回归任务.实验表明文中模型既能保持无监督主题模型隐含主题的提取能力,还能更好地完成分类和回归任务.  相似文献   

7.
针对有标签数据不足及传统故障诊断模型判别性差的问题,本文提出一种流形结构化半监督扩展字典学习(MS-SSEDL)的故障诊断方法.首先,为改善缺少有标签数据而导致模型的识别性能较差问题,在MS-SSEDL模型中提出无标签数据重构误差项,利用无标签数据学习置信度矩阵,从而学习得到扩展字典以增强字典学习的表示性.然后,为增强MS-SSEDL模型的判别性,通过保存数据的流形结构,学习数据中内在几何信息的稀疏表示,增强信号表示能力及字典判别性.最后,在数字图像、轴承故障及齿轮故障公共数据集的实验表明所提MS-SSEDL方法比其他先进方法的识别性能更优越.  相似文献   

8.
目的 特征降维是机器学习领域的热点研究问题。现有的低秩稀疏保持投影方法忽略了原始数据空间和降维后的低维空间之间的信息损失,且现有的方法不能有效处理少量有标签数据和大量无标签数据的情况,针对这两个问题,提出基于低秩稀疏图嵌入的半监督特征选择方法(LRSE)。方法 LRSE方法包含两步:第1步是充分利用有标签数据和无标签数据分别学习其低秩稀疏表示,第2步是在目标函数中同时考虑数据降维前后的信息差异和降维过程中的结构信息保持,其中通过最小化信息损失函数使数据中有用的信息尽可能地保留下来,将包含数据全局结构和内部几何结构的低秩稀疏图嵌入在低维空间中使得原始数据空间中的结构信息保留下来,从而能选择出更有判别性的特征。结果 将本文方法在6个公共数据集上进行测试,对降维后的数据采用KNN分类验证本文方法的分类准确率,并与其他现有的降维算法进行实验对比,本文方法分类准确率均有所提高,在其中的5个数据集上本文方法都有最高的分类准确率,其分类准确率分别在Wine数据集上比次高算法鲁棒非监督特征选择算法(RUFS)高11.19%,在Breast数据集上比次高算法RUFS高0.57%,在Orlraws10P数据集上比次高算法多聚类特征选择算法(MCFS)高1%,在Coil20数据集上比次高算法MCFS高1.07%,在数据集Orl64上比次高算法MCFS高2.5%。结论 本文提出的基于低秩稀疏图嵌入的半监督特征选择算法使得降维后的数据能最大限度地保留原始数据包含的信息,且能有效处理少量有标签样本和大量无标签样本的情况。实验结果表明,本文方法比现有算法的分类效果更好,此外,由于本文方法基于所有的特征都在线性流形上的假设,所以本文方法只适用于线性流形上的数据。  相似文献   

9.
函数型聚类分析是探索函数型数据的重要工具,现有的函数型聚类方法大多属于无监督学习,没有考虑到数据的标签信息.针对目前函数型聚类方法的无监督特性,以及函数型数据通常具备的非负性特征,提出了一种非负半监督函数型聚类方法(SSNFC),用于处理带有少量标签信息的非负函数型数据的聚类问题.首先,通过引入约束非负矩阵分解(CNMF)技术,将标签信息融入函数型聚类过程中,构建了曲线拟合、非负约束和函数型聚类相统一的一步法模型.其次,给出了模型的迭代更新求解算法,证明了算法的局部收敛性,并分析了算法的时间复杂度.最后,在随机模拟数据、Growth数据和TIMIT语音数据的实验结果表明,与无监督函数型聚类方法相比较,提出的非负半监督函数型聚类方法SSNFC有助于提高聚类性能.  相似文献   

10.
为了提高无监督嵌入学习对图像特征的判别能力,提出一种基于深度聚类的无监督学习方法。通过对图像的嵌入特征进行聚类,获得图像之间的伪类别信息,然后最小化聚类损失来优化网络模型,使得模型能够学习到图像的高判别性特征。在三个标准数据集上的图像检索性能表明了该方法的有效性,并且优于目前大多数方法。  相似文献   

11.
It is a significant and challenging task to detect the informative features to carry out explainable analysis for high dimensional data, especially for those with very small number of samples. Feature selection especially the unsupervised ones are the right way to deal with this challenge and realize the task. Therefore, two unsupervised spectral feature selection algorithms are proposed in this paper. They group features using advanced Self-Tuning spectral clustering algorithm based on local standard deviation, so as to detect the global optimal feature clusters as far as possible. Then two feature ranking techniques, including cosine-similarity-based feature ranking and entropy-based feature ranking, are proposed, so that the representative feature of each cluster can be detected to comprise the feature subset on which the explainable classification system will be built. The effectiveness of the proposed algorithms is tested on high dimensional benchmark omics datasets and compared to peer methods, and the statistical test are conducted to determine whether or not the proposed spectral feature selection algorithms are significantly different from those of the peer methods. The extensive experiments demonstrate the proposed unsupervised spectral feature selection algorithms outperform the peer ones in comparison, especially the one based on cosine similarity feature ranking technique. The statistical test results show that the entropy feature ranking based spectral feature selection algorithm performs best. The detected features demonstrate strong discriminative capabilities in downstream classifiers for omics data, such that the AI system built on them would be reliable and explainable. It is especially significant in building transparent and trustworthy medical diagnostic systems from an interpretable AI perspective.  相似文献   

12.
曹苏群  王士同 《计算机应用》2010,30(7):1859-1862
统计不相关最佳鉴别平面是一种重要的特征抽取方法,在模式识别领域中具有广泛的应用。然而,统计不相关最佳鉴别平面是基于Fisher准则和总体散布矩阵共轭正交条件的,需要通过样本类别信息计算Fisher最佳鉴别矢量,因而只能用于有监督模式。提出了一种将统计不相关最佳鉴别平面扩展到无监督模式下的方法,其基本思想是将模糊概念引入Fisher线性判别分析,通过对模糊Fisher准则的优化,在无监督模式下计算出最佳鉴别矢量及模糊散布矩阵,再根据共轭正交约束条件,求得第二条最佳鉴别矢量,进而获得一种基于无监督统计不相关最佳鉴别平面的特征抽取方法。对UCI数据集及CMU-PIE人脸数据库进行实验,结果表明,在样本类别信息缺失的情况下,该方法尽管无法具有与有监督模式下的统计不相关最佳鉴别平面特征抽取方法同样的性能,但当类别差异较大时,能够抽取有利于分类的统计不相关特征,获得优于主成分分析与独立成分分析等常见无监督特征抽取方法的性能。  相似文献   

13.
无监督特征选择可以降低数据维数,提高算法的学习性能,是机器学习和模式识别等领域中的重要研究课题。和大多数在目标函数中引入稀疏正则化解决松弛问题的方法不同,提出了一种基于最大熵和l2,0范数约束的无监督特征选择算法。使用具有唯一确定含义的l2,0范数等式约束,即选择特征的数量,不涉及正则化参数的选取,避免调整参数。结合谱分析探索数据的局部几何结构并基于最大熵原理自适应的构造相似矩阵。通过增广拉格朗日函数法,设计了一种交替迭代优化算法对模型求解。在四个真实数据集上与其他几种无监督特征选择算法的对比实验,验证了所提算法的有效性。  相似文献   

14.
为使局部线性嵌入(local linear embedding, LLE)这一无监督高维数据的非线性特征提取方法提取出的特征在分类或聚类学习上更优,提出一种半监督类保持局部线性嵌入(semi-supervised class preserving local linear embedding, SSCLLE)的非线性特征提取方法。该方法将半监督信息融入到LLE中,首先对标记样本近邻赋予伪标签,增大标记样本数量。其次,对标记样本之间的距离进行局部调整,缩小同类样本间距,扩大异类样本间距。同时在局部线性嵌入优化目标函数中增加全局同类样本间距和异类样本间距的约束项,使得提取出的低维特征可以确保同类样本点互相靠近,而异类样本点彼此分离。在一系列实验中,其聚类精确度以及可视化效果明显高于无监督LLE和现有半监督流特征提取方法,表明该方法提取出的特征具有很好的类保持特性。  相似文献   

15.
针对高维数据含有的冗余特征影响机器学习训练效率和泛化能力的问题,为提升模式识别准确率、降低计算复杂度,提出了一种基于正则互表示(RMR)性质的无监督特征选择方法。首先,利用特征之间的相关性,建立由Frobenius范数约束的无监督特征选择数学模型;然后,设计分治-岭回归优化算法对模型进行快速优化;最后,根据模型最优解综合评估每个特征的重要性,选出原始数据中具有代表性的特征子集。在聚类准确率指标上,RMR方法与Laplacian方法相比提升了7个百分点,与非负判别特征选择(NDFS)方法相比提升了7个百分点,与正则自表示(RSR)方法相比提升了6个百分点,与自表示特征选择(SR_FS)方法相比提升了3个百分点;在数据冗余率指标上,RMR方法与Laplacian方法相比降低了10个百分点,与NDFS方法相比降低了7个百分点,与RSR方法相比降低了3个百分点,与SR_FS方法相比降低了2个百分点。实验结果表明,RMR方法能够有效地选出重要特征,降低数据冗余率,提升样本聚类准确率。  相似文献   

16.
特征选择是去除不相关和冗余特征,找到具有良好泛化能力的原始特征的紧凑表示,同时,数据中含有的噪声和离群点会使学习获得的系数矩阵的秩变大,使得算法无法捕捉到高维数据中真实的低秩结构。因此,利用Schatten-p范数逼近秩最小化问题和特征自表示重构无监督特征选择问题中的系数矩阵,建立一个基于Schatten-p范数和特征自表示的无监督特征选择(SPSR)算法,并使用增广拉格朗日乘子法和交替方向法乘子法框架进行求解。最后在6个公开数据集上与经典无监督特征选择算法进行实验比较,SPSR算法的聚类精度更高,可以有效地识别代表性特征子集。  相似文献   

17.
面向分类特征的无监督特征选择方法研究   总被引:1,自引:0,他引:1  
针对分类特征数据给出一种新的特征重要性程度度量方法.以一趟聚类算法为基础,提出一种无监督特征选择方法.理论分析表明该方法时间复杂度与数据集的大小和特征个数成近似线性关系,适合于大规模数据集中的特征选择.在UC I数据集上的实验结果表明,与文献中的经典方法相比,本文方法具有较好的性能,说明提出的特征选择方法是有效可行的.  相似文献   

18.
谢娟英  丁丽娟  王明钊 《软件学报》2020,31(4):1009-1024
基因表达数据具有高维小样本特点,包含了大量与疾病无关的基因,对该类数据进行分析的首要步骤是特征选择.常见的特征选择方法需要有类标的数据,但样本类标获取往往比较困难.针对基因表达数据的特征选择问题,提出基于谱聚类的无监督特征选择思想FSSC(feature selection by spectral clustering).FSSC对所有特征进行谱聚类,将相似性较高的特征聚成一类,定义特征的区分度与特征独立性,以二者之积度量特征重要性,从各特征簇选取代表性特征,构造特征子集.根据使用的不同谱聚类算法,得到FSSC-SD(FSSC based on standard deviation) FSSCMD(FSSC based on mean distance)和FSSC-ST(FSSC based on self-tuning)这3种无监督特征选择算法.以SVMs(support vector machines)和KNN(K-nearest neighbours)为分类器,在10个基因表达数据集上进行实验测试.结果表明,FSSC-SD、FSSC-MD和FSSC-ST算法均能选择到具有强分类能力的特征子集.  相似文献   

19.
针对现有的回环检测模型大多基于有监督学习进行训练,需要大量标注数据的问题,提出一种视觉回环检测新方法,利用生成对抗思想设计一个深度网络,以无监督学习的方式训练该网络并提取高区分度和低维度的二进制特征.将距离传播损失函数和二值化表示熵损失函数引入神经网络,将高维特征空间的海明距离关系传播到低维特征空间并增加低维特征表示的...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号