首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 703 毫秒
1.
高维数据中存在着大量的冗余和不相关特征,严重影响了数据挖掘的效率、质量以及机器学习算法的泛化性能,因此特征选择成为计算机科学与技术领域的重要研究方向.文中利用自编码器的非线性学习能力提出了一种无监督特征选择算法.首先,基于自编码器的重建误差选择出单个特征对数据重建贡献大的特征子集.其次,利用单层自编码器的特征权重最终选择出对其他特征重建贡献大的特征子集,通过流形正则保持原始数据空间的局部与非局部结构,并且对特征权重增加L2/1稀疏正则来提高特征权重的稀疏性,使之选择出更具区别性的特征.最后,构造一个新的目标函数,并利用梯度下降算法对所提目标函数进行优化.在6个不同类型的典型数据集上进行实验,并将所提算法与5个常用的无监督特征选择算法进行对比.实验结果验证了所提算法能够有效地选择出重要特征,显著提高了分类准确率和聚类准确率.  相似文献   

2.
基于增强稀疏性特征选择的网络图像标注   总被引:1,自引:0,他引:1  
史彩娟  阮秋琦 《软件学报》2015,26(7):1800-1811
面对网络图像的爆炸性增长,网络图像标注成为近年来一个热点研究内容,稀疏特征选择在提升网络图像标注效率和性能方面发挥着重要的作用.提出了一种增强稀疏性特征选择算法,即,基于l2,1/2矩阵范数和共享子空间的半监督稀疏特征选择算法(semi-supervised sparse feature selection based on l2,1/2-matix norm with shared subspace learning,简称SFSLS)进行网络图像标注.在SFSLS算法中,应用l2,1/2矩阵范数来选取最稀疏和最具判别性的特征,通过共享子空间学习,考虑不同特征之间的关联信息.另外,基于图拉普拉斯的半监督学习,使SFSLS算法同时利用了有标签数据和无标签数据.设计了一种有效的迭代算法来最优化目标函数.SFSLS算法与其他稀疏特征选择算法在两个大规模网络图像数据库上进行了比较,结果表明,SFSLS算法更适合于大规模网络图像的标注.  相似文献   

3.
近年来,链接预测成为社会网络和其他复杂网络链接挖掘中的热门研究领域.在链接预测问题中,经常会存在用来提高预测效果的附加数据信息源,这些数据可以用于预测网络中的链接是否存在.在所有的数据源中,最主要的数据源在链接预测中起到最重要的作用.因此,设计具备健壮性的算法用于充分利用所有数据源的信息来进行链接预测十分重要,算法还需要平衡主数据源和附加数据源的关系,使得链接预测能够获得更好的效果.同时,传统基于拓扑结构计算的无监督算法大多数通过计算网络中节点间的评分值来解决预测链接存在可能性的问题,这些方法能够获得有效的结果.在链接预测方法中,最关键的一步是构建准确的输入矩阵数据.由于许多真实世界数据集存在噪声,这导致降低了大多数链接预测模型的效果.提出了一种新的链接预测方法,通过多个数据源的融合,兼顾地利用了主数据源的信息和其他附加数据源的信息.接着,主数据源和其他附加数据源被用于构建一个低噪声且更准确的矩阵,而新的矩阵被用于作为传统无监督拓扑链接预测算法的输入.根据在多个真实世界数据上的测试结果,在多源数据集上进行对比实验,提出的基于低秩和稀疏矩阵分解的多源融合链接预测算法相对于基准算法能够获得更好的效果.  相似文献   

4.
为了有效利用多视图数据信息提升监督特征选择的性能,构建了一种结构化多视 图稀疏限定,并基于该稀疏限定提出了一种监督特征选择方法,即结构化多视图监督特征选择 方法(SMSFS)。该方法在特征选择过程中能够同时考虑不同视图特征的重要性以及同一视图中 不同特征的重要性,从而有效的结合多视图数据信息,提升监督特征选择的性能。SMSFS 目标 函数是非凸的,设计了一个有效的迭代算法对目标函数进行求解。将所提结构化多视图监督特 征选择方法 SMSFS 应用到了图像标注任务,在 NUS-WIDE 和 MSRA-MM2.0 图像数据库上进 行了实验,并与其他特征选择算法进行了比较,实验结果表明该算法能够有效结合多视图数据 信息,提升特征选择性能。  相似文献   

5.
大部分的链接预测模型在挖掘节点相似性时过于依赖已知的链接信息,但在真实世界中,已知的观测链接数量通常较少.因此,为了提高模型的鲁棒性,需要提高解耦模型对链接信息的依赖并挖掘节点的潜在特征.文中考虑节点特征和链接之间的潜在关系,提出基于对抗图卷积网络的链接预测模型.首先利用节点间的相似性度量填充邻接矩阵中部分未知链接,缓解链接稀疏对图卷积模型的影响.再利用对抗网络深度挖掘节点特征和链接之间的潜在联系,降低模型对链接的依赖.在真实数据集上的实验表明,文中模型在链接预测问题上具有较好的表现力,在链接稀疏的情况下性能依旧较稳定,同时适用于大规模数据集.  相似文献   

6.
传统协同过滤算法存在严重的数据稀疏和冷启动问题。利用社交网络中的丰富信息为解决传统协同过滤算法的数据稀疏和冷启动带来了契机。然而,传统基于社交网络的协同过滤算法仅利用粗粒度、稀疏的用户信任关系来改进传统协同过滤算法,即用0或1表示用户之间信任程度。另外,传统基于社交网络推荐算法仅仅集成用户之间显式信任关系,而忽略用户之间隐式的信任关系。本文提出一种基于图嵌入模型的协同过滤推荐算法,即利用图嵌入模型技术学习社交网络中用户的低维特征表示,并根据用户的低维特征表示推导用户之间细粒度的信任关系。最后,根据信任用户和相似用户对目标物品的评分权重预测用户对目标物品的评分。在真实数据集上的实验结果表明,基于图嵌入模型的协同过滤算法的性能优于传统的协同过滤算法。  相似文献   

7.
《计算机工程》2017,(8):208-214
研究基于复杂网络特征的链接分类问题,针对原始特征噪声信息多、冗余度大的现象,在RRelief F特征选择算法的基础上,提出一种改进的链接分类模型。从局部和全局2个维度构建与链接相关联的特征信息,引入RRelief F算法对特征进行选择并采用偏最小二乘法实现回归分类。在人工数据集和真实数据集上的实验结果表明,该模型能筛选出具有判别性的特征,提高链接分类质量,为监督学习的复杂网络链接分类提供一种新思路。  相似文献   

8.
孙鹤立  何亮  何方  孙苗苗  贾晓琳 《计算机应用》2020,40(10):2929-2935
针对稀疏子图发现问题中使用高维稀疏向量表示网络信息存在的时间和空间消耗大的问题,提出一种基于网络嵌入的稀疏子图发现(TGF)算法。该算法首先通过网络嵌入的方法将网络结构映射到低维空间中,得到节点的低维向量表示;然后定义向量空间中的稀疏子集发现问题,将稀疏子图发现问题转化为稀疏子集发现问题;迭代搜索局部密度最低的样本点并对其进行扩张,最终找到一个满足条件的最大稀疏子集。实验结果表明,在Synthetic_1000数据集上与TERA(Triangle and Edge Reduction Algorithm)和WK(Weight of K-hop)算法相比,TGF算法的搜索效率是TERA的1 353倍,是WK算法的4倍,并且在k-line、k-triangle和k-density指标上也取得了较优的结果。  相似文献   

9.
等谱流形学习算法   总被引:1,自引:0,他引:1  
黄运娟  李凡长 《软件学报》2013,24(11):2656-2666
基于谱方法的流形学习算法的目标是发现嵌入在高维数据空间中的低维表示.近年来,该算法已得到广泛的应用.等谱流形学习是谱方法中的主要内容之一.等谱流形学习源于这样的结论:只要两个流形的谱相同,其内部结构就是相同的.而谱计算难以解决的问题是近邻参数的选择以及如何构造合理邻接权.为此,提出了等谱流形学习算法(isospectral manifold learning algorithm,简称IMLA).它通过直接修正稀疏重构权矩阵,将类内的判别监督信息和类间的判别监督信息同时融入邻接图,达到既能保持数据间稀疏重建关系,又能利用监督信息的目的,与PCA等算法相比具有明显的优势.该算法在3 个常用人脸数据集(Yale,ORL,Extended Yale B)上得到了验证,这进一步说明了IMLA 算法的有效性.  相似文献   

10.

针对启发式特征选择策略忽略了特征间相关信息导致子最优的问题, 提出一种基于流形鉴别信息的特征选择(MDFS) 算法. 该算法根据近邻信息和标签信息刻画高维数据类内和类间流形结构, 以最小化流形散度差为准则构建目标函数, 并增加结构化稀疏正则项降低特征间冗余. 通过统一框架下的特征权重迭代优化获得最优特征子集. 在ORL 库、COIL20 库、Isolet1 库上的聚类实验表明, MDFS算法选取的特征子集相比传统算法具有更高的识别准确率和归一化互信息, 验证了所提出算法的有效性.

  相似文献   

11.
针对现有的基于图的半监督学习(graph-based semi-supervised learning,简称GSSL)方法存在模型参数敏感和数据空间判别信息不充分等问题,受最近特征空间嵌入和数据稀疏表示思想的启发,提出一种稀疏近似最近特征空间嵌入标签传播算法SANFSP(sparse approximated nearest feature space embedding label propagation).SANFSP首先利用特征空间嵌入投影点来稀疏表示原始数据;然后,度量原始数据和稀疏近似最近特征空间嵌入投影间的相似性;进而提出稀疏近似最近特征空间嵌入正则化项;最后,基于传统GSSL 方法的标签传播算法,实现数据标签的平滑传播.同时,还将SANFSP 算法简单拓展到out-of-sample 学习.SANFSP 算法在人造和实际数据集(如人脸识别、可视物件识别以及手写数字分类等)上取得了有效的实验结果.  相似文献   

12.
目的 特征降维是机器学习领域的热点研究问题。现有的低秩稀疏保持投影方法忽略了原始数据空间和降维后的低维空间之间的信息损失,且现有的方法不能有效处理少量有标签数据和大量无标签数据的情况,针对这两个问题,提出基于低秩稀疏图嵌入的半监督特征选择方法(LRSE)。方法 LRSE方法包含两步:第1步是充分利用有标签数据和无标签数据分别学习其低秩稀疏表示,第2步是在目标函数中同时考虑数据降维前后的信息差异和降维过程中的结构信息保持,其中通过最小化信息损失函数使数据中有用的信息尽可能地保留下来,将包含数据全局结构和内部几何结构的低秩稀疏图嵌入在低维空间中使得原始数据空间中的结构信息保留下来,从而能选择出更有判别性的特征。结果 将本文方法在6个公共数据集上进行测试,对降维后的数据采用KNN分类验证本文方法的分类准确率,并与其他现有的降维算法进行实验对比,本文方法分类准确率均有所提高,在其中的5个数据集上本文方法都有最高的分类准确率,其分类准确率分别在Wine数据集上比次高算法鲁棒非监督特征选择算法(RUFS)高11.19%,在Breast数据集上比次高算法RUFS高0.57%,在Orlraws10P数据集上比次高算法多聚类特征选择算法(MCFS)高1%,在Coil20数据集上比次高算法MCFS高1.07%,在数据集Orl64上比次高算法MCFS高2.5%。结论 本文提出的基于低秩稀疏图嵌入的半监督特征选择算法使得降维后的数据能最大限度地保留原始数据包含的信息,且能有效处理少量有标签样本和大量无标签样本的情况。实验结果表明,本文方法比现有算法的分类效果更好,此外,由于本文方法基于所有的特征都在线性流形上的假设,所以本文方法只适用于线性流形上的数据。  相似文献   

13.
孙鹤立  何亮  何方  孙苗苗  贾晓琳 《计算机应用》2005,40(10):2929-2935
针对稀疏子图发现问题中使用高维稀疏向量表示网络信息存在的时间和空间消耗大的问题,提出一种基于网络嵌入的稀疏子图发现(TGF)算法。该算法首先通过网络嵌入的方法将网络结构映射到低维空间中,得到节点的低维向量表示;然后定义向量空间中的稀疏子集发现问题,将稀疏子图发现问题转化为稀疏子集发现问题;迭代搜索局部密度最低的样本点并对其进行扩张,最终找到一个满足条件的最大稀疏子集。实验结果表明,在Synthetic_1000数据集上与TERA(Triangle and Edge Reduction Algorithm)和WK(Weight of K-hop)算法相比,TGF算法的搜索效率是TERA的1 353倍,是WK算法的4倍,并且在k-line、k-triangle和k-density指标上也取得了较优的结果。  相似文献   

14.
近邻法对不相关特征的敏感性很高,利用邻域重构系数可以保持原有数据结构的优点,为此,文中提出基于邻域保持学习的无监督特征选择算法.首先根据数据样本和邻域的相似性构造相似矩阵,并引入中间矩阵构造低维空间.然后利用拉普拉斯乘子法选择有效特征子集.在4个公开数据集上的实验表明,文中算法可以有效识别代表性特征.  相似文献   

15.
在基于图的机器学习算法中,构造一个能较好反映数据内在结构信息的图尤为重要.文中提出一种基于分割Bregman方法的非负稀疏图构建算法.该算法通过使用分割Bregman方法求解稀疏表示优化问题的一个等价形式,以此得到一个能将每个数据样本表示成其他样本的非负线性组合的图的边权矩阵.算法构建的稀疏图能较好描述数据之间存在的线性关系.在半监督学习的框架下进行测试的实验表明,文中算法能较好反映数据内部潜在的结构信息.  相似文献   

16.
在处理高维数据过程中,特征选择是一个非常重要的数据降维步骤。低秩表示模型具有揭示数据全局结构信息的能力和一定的鉴别能力。稀疏表示模型能够利用较少的连接关系揭示数据的本质结构信息。在低秩表示模型的基础上引入稀疏约束项,构建一种低秩稀疏表示模型学习数据间的低秩稀疏相似度矩阵;基于该矩阵提出一种低秩稀疏评分机制用于非监督特征选择。在不同数据库上将选择后的特征进行聚类和分类实验,同传统特征选择算法进行比较。实验结果表明了低秩特征选择算法的有效性。  相似文献   

17.
波段选择是数据降维的有效手段,但有限的标记样本影响了监督波段选择的性能。提出一种利用图Laplacian和自训练策略实现半监督波段选择的方法。该方法首先定义基于图的半监督特征评分准则以产生初始波段子集,接着在该子集基础上进行分类,采用自训练策略将部分可信度较高的非标记样本扩展至标记样本集合,再用特征评分准则对波段子集进行更新。重复该过程,获得最终波段子集。高光谱波段选择与分类实验比较了多种非监督、监督和半监督方法,实验结果表明所提算法能选择出更好的波段子集。  相似文献   

18.
由于无监督环境下特征选择缺少类别信息的依赖,所以利用模糊粗糙集理论提出一种非一致性度量方法DAM(disagreement measure),用于度量任意两个特征集合或特征间引起的模糊等价类含义的差异程度.在此基础上实现DAMUFS无监督特征选择算法,其在无监督条件下可以选择出包含更多信息量的特征子集,同时还保证特征子集中属性冗余度尽可能小.实验将DAMUFS算法与一些无监督以及有监督特征选择算法在多个数据集上进行分类性能比较,结果证明了DAMUFS的有效性.  相似文献   

19.
监督型稀疏保持投影   总被引:1,自引:0,他引:1       下载免费PDF全文
稀疏保持投影(SPP)是最近提出的一种无监督降维方法,因此无法利用标号数据提供的监督信息。为此,对SPP进行了扩展,给出了两种监督型稀疏保持投影算法:基于稀疏保持的判别分析(SPP+LDA)和监督稀疏保持投影(S2PP)。前者通过在SPP变换的子空间内进行线性判别分析(LDA)达到利用数据间稀疏重建关系和监督信息的目的;后者借助数据标号直接修正SPP构建的稀疏重建图在SPP中自然地融入监督信息。分析了两种算法的优缺点,在两个常用的人脸数据集(Yale和AR)上验证了两者的可行性及有效性。  相似文献   

20.
提出了KDD中数据预处理的一种基本算法.针对数据库中的属性,利用非监督学习算法,在获取了面向任务的目标数据子集的基础上,利用混合优化算法进行特征子集的选取.分析了遗传算法和混合遗传算法用于特征子集选择的基本算法,仿真实验说明了混合优化算法的有效性和可行性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号