共查询到20条相似文献,搜索用时 0 毫秒
1.
2.
针对无标签高维数据的大量出现,对机器学习中无监督特征选择算法进行了研究。提出了一种结合自表示相似矩阵和流形学习的无监督特征选择算法。首先,通过数据的自表示性质,构建相似矩阵,结合低维流形能够表示高维数据结构这一流形学习思想,建立一种考虑流形学习的无监督特征选择优化模型。其次,为了保证选择到更有用及更稀疏的特征,采用l2,1范数对优化模型进行约束,使特征之间相互竞争,消除冗余。进而,通过变量交替迭代对优化模型进行求解,并证明了算法的收敛性。最后,通过与其他几个无监督特征算法在四个数据集上的对比实验,证明了所提算法的有效性。 相似文献
3.
4.
基于Hessian半监督特征选择的网络图像标注 总被引:1,自引:0,他引:1
针对半监督特征选择算法进行了研究,采用有标签图像和无标签图像的半监督特征选择方法来提升网络图像标注的性能。基于二阶Hessian能提出一个新的半监督特征选择方法,该方法具有更好的局部拓扑结构保持特性和推断能力,从而能够克服基于图拉普拉斯半监督学习方法的缺点。将所提出的半监督特征选择算法应用到网络图像标注任务中,在两个大规模网络图像数据库上进行了实验,结果表明Hessian半监督特征选择方法优于拉普拉斯半监督特征选择方法,适合大规模网络图像标注。 相似文献
5.
王锋;武文强;梁吉业 《计算机学报》2025,(6):1273-1289
现有的半监督学习方法大多遵循封闭世界假设,即在模型训练过程中类别信息保持不变,标记数据可以覆盖所有类别。然而,在实际应用中,这一假设往往难以满足,未标记数据中通常会包含大量的未知类数据样本。为此,近年来研究人员提出了一个极具挑战性的研究方向:将半监督学习推广到不仅能够有效识别已知类的未标记数据样本,还能对未知的新类样本进行学习,从而构建面向开放世界的半监督学习机制。为应对这一挑战,本文基于符号型数据,提出了一种面向开放世界的半监督特征选择算法(OpenSSFS)。该算法将耦合学习引入到了符号型样本相似性度量以及类别关联性分析中,构建了新的样本相似性和类别相关性度量,并据此依次构建了三个核心模块:面向未标记已知类数据的自适应伪标签生成算法,面向未标记未知类数据的粒化和新类发现算法,以及基于类别相关性的特征选择算法。对给定的开放世界数据集,首先计算已知类数据样本的特征选择结果,并通过伪标签生成算法为未标记的已知类样本分配伪标签,进而基于所有已知类样本更新特征选择结果;其次,识别未知类未标记样本中的新类,并计算新类上的特征选择结果;最后,融合已知类样本和未知类样本的有效特征子集,确定最终的特征选择结果。为了有效验证所提新算法的有效性,本文在模拟的开放世界数据环境中进行了实验分析,分别测试了该算法在不同比例的已知类和未知类,以及不同比例的标记样本和未标记样本上的性能。实验结果表明,OpenSSFS算法在多种场景下均展现了较好的分类性能:首先,在包含50%已知类和50%未知类,且拥有50%标记样本的数据集上,新算法的分类精度最高提升了近70%,显著优于其他对比算法;其次,随着标记样本比例从90%降至10%,新算法的性能依然优于其他算法,且未出现明显下降,显示出较强的鲁棒性;最后,即使在已知类比例较低的情况下,OpenSSFS算法仍能保持良好的性能,适用于开放性更高的任务场景。此外,实验分析中还对算法中的参数阈值进行了详细分析和讨论。 相似文献
6.
基于空间覆盖的半监督特征选择方法 总被引:1,自引:0,他引:1
提出一种新颖的基于空间覆盖的半监督特征选择方法。该算法同时利用已标签数据与未标签数据进行特征选择,各特征的相关性大小由其在不同簇中的覆盖程度衡量。在公共数据集和毒性数据集上的实验表明,该方法在改善学习精度上有很好的应用前景。 相似文献
7.
8.
无监督特征选择算法可以对高维无标记数据进行有效的降维,从而减少数据处理的时间和空间复杂度,避免算法模型出现过拟合现象.然而,现有的无监督特征选择方法大都运用k近邻法捕捉数据样本的局部几何结构,忽略了数据分布不均的问题.为了解决这个问题,提出了一种基于自适应邻域嵌入的无监督特征选择(adaptive neighborhood embedding based unsupervised feature selection, ANEFS)算法,该算法根据数据集自身的分布特点确定每个样本的近邻数,进而构造样本相似矩阵,同时引入从高维空间映射到低维空间的中间矩阵,利用拉普拉斯乘子法优化目标函数进行求解.6个UCI数据集的实验结果表明:所提出的算法能够选出具有更高聚类精度和互信息的特征子集. 相似文献
9.
传统的有监督度量学习算法没有利用大量存在的无标记样本,且得到的度量矩阵复杂,难以了解不同原始特征的重要程度。针对这些情况,提出基于半监督假设的半监督稀疏度量学习算法。根据三样本组约束建立间隔损失函数;基于平滑假设、聚类假设、流形假设这三个半监督假设建立半监督正则项,并利用L_1范数建立稀疏正则项;利用梯度下降法求解目标函数。实验结果表明,该算法学习得到的度量能有效地使不同类别的样本间距离增大,度量矩阵具有稀疏性,分界面穿过低密度区域,该算法在UCI的样本数据集上具有良好的分类准确性。 相似文献
10.
半监督拉普拉斯特征映射算法 总被引:1,自引:0,他引:1
为了使流形学习方法具有半监督的特点,利用流形上某些已知低维信息的数据去学习推测出其它数据的低维信息,扩大流形学习算法的应用范围,把拉普拉斯特征映射算法(Laplacian Eigenmap,LE)与半监督的机器学习相结合,提出一种半监督的拉普拉斯特征映射算法(semi-supervised Laplacian Eigenmap,SSLE),这种半监督的流形学习算法在分类识别等问题上,具有很好的效果.模拟实验和实际例子都表明了SSLE算法的有效性. 相似文献
11.
针对非负矩阵分解(NMF)半监督社区发现方法随机选择先验约束,导致提升相同性能需要更多约束信息的问题,提出一种基于迭代框架的主动链接选择半监督社区发现算法——ALS_GNMF。在迭代框架下,首先,主动选择不确定性高且对社区划分指导性强的链接对作为先验信息;其次,为主动选择的链接对增加must-link约束,增强社区间连接,生成先验矩阵;同时,增加cannot-link约束,减弱社区间连接,修改邻接矩阵;最后,将先验矩阵作为正则项,加入基于NMF的最优化目标函数,并融合网络拓扑结构信息,以期用较少的先验信息,达到较高的社区发现准确性和鲁棒性。实验结果表明,ALS_GNMF算法在真实网络及人工网络上,相同的先验比例下,性能比未采用迭代框架和主动策略的NMF半监督社区发现方法有更大的提升,且在结构不清晰的网络中表现稳定。 相似文献
12.
13.
为了有效利用多视图数据信息提升监督特征选择的性能,构建了一种结构化多视 图稀疏限定,并基于该稀疏限定提出了一种监督特征选择方法,即结构化多视图监督特征选择 方法(SMSFS)。该方法在特征选择过程中能够同时考虑不同视图特征的重要性以及同一视图中 不同特征的重要性,从而有效的结合多视图数据信息,提升监督特征选择的性能。SMSFS 目标 函数是非凸的,设计了一个有效的迭代算法对目标函数进行求解。将所提结构化多视图监督特 征选择方法 SMSFS 应用到了图像标注任务,在 NUS-WIDE 和 MSRA-MM2.0 图像数据库上进 行了实验,并与其他特征选择算法进行了比较,实验结果表明该算法能够有效结合多视图数据 信息,提升特征选择性能。 相似文献
14.
目的 特征降维是机器学习领域的热点研究问题。现有的低秩稀疏保持投影方法忽略了原始数据空间和降维后的低维空间之间的信息损失,且现有的方法不能有效处理少量有标签数据和大量无标签数据的情况,针对这两个问题,提出基于低秩稀疏图嵌入的半监督特征选择方法(LRSE)。方法 LRSE方法包含两步:第1步是充分利用有标签数据和无标签数据分别学习其低秩稀疏表示,第2步是在目标函数中同时考虑数据降维前后的信息差异和降维过程中的结构信息保持,其中通过最小化信息损失函数使数据中有用的信息尽可能地保留下来,将包含数据全局结构和内部几何结构的低秩稀疏图嵌入在低维空间中使得原始数据空间中的结构信息保留下来,从而能选择出更有判别性的特征。结果 将本文方法在6个公共数据集上进行测试,对降维后的数据采用KNN分类验证本文方法的分类准确率,并与其他现有的降维算法进行实验对比,本文方法分类准确率均有所提高,在其中的5个数据集上本文方法都有最高的分类准确率,其分类准确率分别在Wine数据集上比次高算法鲁棒非监督特征选择算法(RUFS)高11.19%,在Breast数据集上比次高算法RUFS高0.57%,在Orlraws10P数据集上比次高算法多聚类特征选择算法(MCFS)高1%,在Coil20数据集上比次高算法MCFS高1.07%,在数据集Orl64上比次高算法MCFS高2.5%。结论 本文提出的基于低秩稀疏图嵌入的半监督特征选择算法使得降维后的数据能最大限度地保留原始数据包含的信息,且能有效处理少量有标签样本和大量无标签样本的情况。实验结果表明,本文方法比现有算法的分类效果更好,此外,由于本文方法基于所有的特征都在线性流形上的假设,所以本文方法只适用于线性流形上的数据。 相似文献
15.
武优;王静;李培培;胡学钢 《计算机科学》2025,52(4):161-168
多标签特征选择是一种有效的特征降维技术,旨在从原始特征空间中筛选出具有区分力的特征子集。然而,传统的多标签特征选择方法面临着标注精度下降的问题。在真实的数据中,实例被候选标签集标注,候选标签除相关标签外,还混杂着噪声标签,即偏多标签数据。现有的多标签特征选择算法通常假设训练样本被精确标注,或者只考虑标签缺失的情况。并且,在现实情形中,大规模高维多标签数据集往往只有小部分数据被标注。因此,文中提出一种新颖的半监督偏多标签特征选择方法。首先,针对偏多标签问题,从已知标签的样本中学习标签之间的真实关系,然后利用流形正则化技术维持特征空间与标签空间的结构一致性。其次,针对标签缺失问题,通过标签传播算法来增强标签信息。另外,针对高维特征问题,对映射矩阵施加低秩约束,以揭示标签间的隐性联系,并通过引入 l2,1 范数约束来选择具有较强区分能力的特征。实验结果表明,与现有的半监督多标签特征选择方法相比,所提方法在性能上存在显著的优势。 相似文献
16.
17.
针对特征选择算法的鲁棒性和稳定性问题以及现实应用领域中大量的廉价未标签数据的利用问题,提出一种基于双重融合策略的半监督特征选择算法.该方法综合利用弱分类器融合技术和未标签数据包含的数据集的簇的结构信息来扩充标签数据集,然后在得到的标签数据集上采用不同的特征选择算法,对不同的特征结果进行简单的融合操作,得到最终的特征子集.在一些公共教据集和有毒性预测数据集上的实验结果表明该方法在改善学习精度上有很好的应用前景. 相似文献
18.
19.
针对网络流量特征选择过程中存在的样本标记瓶颈问题,以及现有半监督方法无法选择强相关的特征的不足,提出一种基于类标记扩展的多类半监督特征选择(SFSEL)算法。该算法首先从少量的标记样本出发,通过K-means算法对未标记样本进行类标记扩展;然后结合基于双重正则的支持向量机(MDrSVM)算法实现多类数据的特征选择。与半监督特征选择算法Spectral、PCFRSC和SEFR在Moore数据集进行了对比实验,SFSEL得到的分类准确率和召回率明显都要高于其他算法,而且SFSEL算法选择的特征个数明显少于其他算法。实验结果表明: SFSEL算法能够有效地提高所选特征的相关性,获取更好的网络流量分类性能。 相似文献
20.
边界Fisher判别分析算法因采用一维向量表示而无法很好保持图像的空间几何结构,且无法利用大量未标记样本信息.为此,提出一种基于张量的半监督判别分析算法.采用二维张量表示人脸空间中的样本图像,揭示流形的内在几何结构,利用有判别信息的标记样本和大量未标记样本,使数据在投影空间的类间分离度最大,同时保证高维空间中不相邻的点在低维空间中也不相邻.在PIE和FERET人脸库上的实验结果表明,该算法能够获得较高的识别率. 相似文献