首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
王锋  刘吉超  魏巍 《计算机科学》2018,45(Z11):427-430
诸多实际应用中,由于确定数据集的类信息通常比较“昂贵”,因此研究者只能为其中很少量的数据标记类信息。针对上述“少量标记数据问题”,文中基于粗糙集理论和信息熵的概念,提出了一种基于信息熵的粗糙特征选择算法。通过分析给定数据集上有标记数据集和无标记数据的信息熵,重新定义了整个数据集上的信息熵。在此基础上定义了半监督意义下基于信息熵的特征重要度,设计了一种基于信息熵的可有效处理含有少量标记数据的半监督粗糙特征选择算法。实验结果进一步验证了所提算法的可行性和高效性。  相似文献   

2.
针对无标签高维数据的大量出现,对机器学习中无监督特征选择进行了研究。提出了一种结合自表示相似矩阵和流形学习的无监督特征选择算法。首先,通过数据的自表示性质,构建相似矩阵,结合低维流形能够表示高维数据结构这一流形学习思想,建立一种考虑流形学习的无监督特征选择优化模型。其次,为了保证选择更有用及更稀疏的特征,采用◢l◣▼2,1▽范数对优化模型进行约束,使特征之间相互竞争,消除冗余。进而,通过变量交替迭代对优化模型进行求解,并证明了算法的收敛性。最后,通过与其他几个无监督特征算法在四个数据集上的对比实验,表明所给算法的有效性。  相似文献   

3.
如何针对半监督数据集,利用不完整的监督信息完成特征选择,已经成为模式识别与机器学习领域的研究热点。为方便研究者系统地了解半监督特征选择领域的研究现状和发展趋势,对半监督特征选择方法进行综述。首先探讨了半监督特征选择方法的分类,将其按理论基础的不同分为基于图的方法、基于伪标签的方法、基于支持向量机的方法以及其他方法;然后详细介绍并比较了各个类别的典型方法;之后整理了半监督特征选择的热点应用;最后展望了半监督特征选择方法未来的研究方向。  相似文献   

4.
基于Hessian半监督特征选择的网络图像标注   总被引:1,自引:0,他引:1  
针对半监督特征选择算法进行了研究,采用有标签图像和无标签图像的半监督特征选择方法来提升网络图像标注的性能。基于二阶Hessian能提出一个新的半监督特征选择方法,该方法具有更好的局部拓扑结构保持特性和推断能力,从而能够克服基于图拉普拉斯半监督学习方法的缺点。将所提出的半监督特征选择算法应用到网络图像标注任务中,在两个大规模网络图像数据库上进行了实验,结果表明Hessian半监督特征选择方法优于拉普拉斯半监督特征选择方法,适合大规模网络图像标注。  相似文献   

5.
基于空间覆盖的半监督特征选择方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种新颖的基于空间覆盖的半监督特征选择方法。该算法同时利用已标签数据与未标签数据进行特征选择,各特征的相关性大小由其在不同簇中的覆盖程度衡量。在公共数据集和毒性数据集上的实验表明,该方法在改善学习精度上有很好的应用前景。  相似文献   

6.
无监督特征选择算法可以对高维无标记数据进行有效的降维,从而减少数据处理的时间和空间复杂度,避免算法模型出现过拟合现象.然而,现有的无监督特征选择方法大都运用k近邻法捕捉数据样本的局部几何结构,忽略了数据分布不均的问题.为了解决这个问题,提出了一种基于自适应邻域嵌入的无监督特征选择(adaptive neighborhood embedding based unsupervised feature selection, ANEFS)算法,该算法根据数据集自身的分布特点确定每个样本的近邻数,进而构造样本相似矩阵,同时引入从高维空间映射到低维空间的中间矩阵,利用拉普拉斯乘子法优化目标函数进行求解.6个UCI数据集的实验结果表明:所提出的算法能够选出具有更高聚类精度和互信息的特征子集.  相似文献   

7.
基于类标号扩展的半监督特征选择算法   总被引:1,自引:0,他引:1  
王博  贾焰  田李 《计算机科学》2009,36(10):189-191
特征选择是数据挖掘、机器学习等领域的重要内容,在缺乏已标记样本的情况下,如何有效选择特征是一个非常值得研究的问题。基于集合间相关度与自相关度的定义,提出了一种新颖的半监督特征选择方法,从原始、少量、且已标记的训练样本出发,通过扩展类标号得到最终的聚类效果,采用复合的评价方法作为衡量特征子集的标准。大量实验结果表明,该算法是有效的。  相似文献   

8.
半监督拉普拉斯特征映射算法   总被引:1,自引:0,他引:1  
为了使流形学习方法具有半监督的特点,利用流形上某些已知低维信息的数据去学习推测出其它数据的低维信息,扩大流形学习算法的应用范围,把拉普拉斯特征映射算法(Laplacian Eigenmap,LE)与半监督的机器学习相结合,提出一种半监督的拉普拉斯特征映射算法(semi-supervised Laplacian Eigenmap,SSLE),这种半监督的流形学习算法在分类识别等问题上,具有很好的效果.模拟实验和实际例子都表明了SSLE算法的有效性.  相似文献   

9.
传统的基于拉普拉斯图的半监督特征选择算法处理高维、少标签样本时,缺乏外推能力且对数据异常值的鲁棒性差.基于此,提出一种基于Hessian正则的自适应损失半监督稀疏特征选择算法.首先,为提升线性映射能力,利用Hessian正则保留数据的局部流形结构;其次,为增强模型对具有较小或者较大损失数据的鲁棒性,引入自适应损失函数,...  相似文献   

10.
传统的有监督度量学习算法没有利用大量存在的无标记样本,且得到的度量矩阵复杂,难以了解不同原始特征的重要程度。针对这些情况,提出基于半监督假设的半监督稀疏度量学习算法。根据三样本组约束建立间隔损失函数;基于平滑假设、聚类假设、流形假设这三个半监督假设建立半监督正则项,并利用L_1范数建立稀疏正则项;利用梯度下降法求解目标函数。实验结果表明,该算法学习得到的度量能有效地使不同类别的样本间距离增大,度量矩阵具有稀疏性,分界面穿过低密度区域,该算法在UCI的样本数据集上具有良好的分类准确性。  相似文献   

11.
针对非负矩阵分解(NMF)半监督社区发现方法随机选择先验约束,导致提升相同性能需要更多约束信息的问题,提出一种基于迭代框架的主动链接选择半监督社区发现算法——ALS_GNMF。在迭代框架下,首先,主动选择不确定性高且对社区划分指导性强的链接对作为先验信息;其次,为主动选择的链接对增加must-link约束,增强社区间连接,生成先验矩阵;同时,增加cannot-link约束,减弱社区间连接,修改邻接矩阵;最后,将先验矩阵作为正则项,加入基于NMF的最优化目标函数,并融合网络拓扑结构信息,以期用较少的先验信息,达到较高的社区发现准确性和鲁棒性。实验结果表明,ALS_GNMF算法在真实网络及人工网络上,相同的先验比例下,性能比未采用迭代框架和主动策略的NMF半监督社区发现方法有更大的提升,且在结构不清晰的网络中表现稳定。  相似文献   

12.
为了有效利用多视图数据信息提升监督特征选择的性能,构建了一种结构化多视 图稀疏限定,并基于该稀疏限定提出了一种监督特征选择方法,即结构化多视图监督特征选择 方法(SMSFS)。该方法在特征选择过程中能够同时考虑不同视图特征的重要性以及同一视图中 不同特征的重要性,从而有效的结合多视图数据信息,提升监督特征选择的性能。SMSFS 目标 函数是非凸的,设计了一个有效的迭代算法对目标函数进行求解。将所提结构化多视图监督特 征选择方法 SMSFS 应用到了图像标注任务,在 NUS-WIDE 和 MSRA-MM2.0 图像数据库上进 行了实验,并与其他特征选择算法进行了比较,实验结果表明该算法能够有效结合多视图数据 信息,提升特征选择性能。  相似文献   

13.
目的 特征降维是机器学习领域的热点研究问题。现有的低秩稀疏保持投影方法忽略了原始数据空间和降维后的低维空间之间的信息损失,且现有的方法不能有效处理少量有标签数据和大量无标签数据的情况,针对这两个问题,提出基于低秩稀疏图嵌入的半监督特征选择方法(LRSE)。方法 LRSE方法包含两步:第1步是充分利用有标签数据和无标签数据分别学习其低秩稀疏表示,第2步是在目标函数中同时考虑数据降维前后的信息差异和降维过程中的结构信息保持,其中通过最小化信息损失函数使数据中有用的信息尽可能地保留下来,将包含数据全局结构和内部几何结构的低秩稀疏图嵌入在低维空间中使得原始数据空间中的结构信息保留下来,从而能选择出更有判别性的特征。结果 将本文方法在6个公共数据集上进行测试,对降维后的数据采用KNN分类验证本文方法的分类准确率,并与其他现有的降维算法进行实验对比,本文方法分类准确率均有所提高,在其中的5个数据集上本文方法都有最高的分类准确率,其分类准确率分别在Wine数据集上比次高算法鲁棒非监督特征选择算法(RUFS)高11.19%,在Breast数据集上比次高算法RUFS高0.57%,在Orlraws10P数据集上比次高算法多聚类特征选择算法(MCFS)高1%,在Coil20数据集上比次高算法MCFS高1.07%,在数据集Orl64上比次高算法MCFS高2.5%。结论 本文提出的基于低秩稀疏图嵌入的半监督特征选择算法使得降维后的数据能最大限度地保留原始数据包含的信息,且能有效处理少量有标签样本和大量无标签样本的情况。实验结果表明,本文方法比现有算法的分类效果更好,此外,由于本文方法基于所有的特征都在线性流形上的假设,所以本文方法只适用于线性流形上的数据。  相似文献   

14.
针对网络流量特征选择过程中监督信息缺乏的问题,提出一种基于成对约束扩展的半监督网络流量特征选择算法。该算法同时考虑少量成对约束和大量无标记样本,利用样本集合间的相关性和自相关性,扩展成对约束集到无标记样本上,产生更多可靠性强的成对约束,以揭示样本空间分布信息。最后,利用扩展的成对约束集进行特征选择。实验证明:与未进行成对约束扩展的算法相比,该算法在少量初始成对约束的情况下能获得更好的分类性能。  相似文献   

15.
针对特征选择算法的鲁棒性和稳定性问题以及现实应用领域中大量的廉价未标签数据的利用问题,提出一种基于双重融合策略的半监督特征选择算法.该方法综合利用弱分类器融合技术和未标签数据包含的数据集的簇的结构信息来扩充标签数据集,然后在得到的标签数据集上采用不同的特征选择算法,对不同的特征结果进行简单的融合操作,得到最终的特征子集.在一些公共教据集和有毒性预测数据集上的实验结果表明该方法在改善学习精度上有很好的应用前景.  相似文献   

16.
非线性降维和半监督学习都是近年来机器学习的热点。将半监督的方法运用到非线性降维中,提出了基于图的半监督降维的算法。该算法用等式融合的方法推出了标记传播算法的另一种表达形式,用标记传播的结果作为初始的数据映射,然后在图谱张成的线性空间中寻找最逼近初始映射的数据作为最后的半监督降维的结果。实验表明,所提算法可以获得平滑的数据映射,更接近于理想的降维效果。与标记传播算法、图谱逼近算法、无监督的降维算法的比较也体现出本算法的优越性。  相似文献   

17.
林荣强  李鸥  李青  李林林 《计算机应用》2014,34(11):3206-3209
针对网络流量特征选择过程中存在的样本标记瓶颈问题,以及现有半监督方法无法选择强相关的特征的不足,提出一种基于类标记扩展的多类半监督特征选择(SFSEL)算法。该算法首先从少量的标记样本出发,通过K-means算法对未标记样本进行类标记扩展;然后结合基于双重正则的支持向量机(MDrSVM)算法实现多类数据的特征选择。与半监督特征选择算法Spectral、PCFRSC和SEFR在Moore数据集进行了对比实验,SFSEL得到的分类准确率和召回率明显都要高于其他算法,而且SFSEL算法选择的特征个数明显少于其他算法。实验结果表明: SFSEL算法能够有效地提高所选特征的相关性,获取更好的网络流量分类性能。  相似文献   

18.
桑凤娟  张贵仓 《计算机工程》2012,38(20):124-127
边界Fisher判别分析算法因采用一维向量表示而无法很好保持图像的空间几何结构,且无法利用大量未标记样本信息.为此,提出一种基于张量的半监督判别分析算法.采用二维张量表示人脸空间中的样本图像,揭示流形的内在几何结构,利用有判别信息的标记样本和大量未标记样本,使数据在投影空间的类间分离度最大,同时保证高维空间中不相邻的点在低维空间中也不相邻.在PIE和FERET人脸库上的实验结果表明,该算法能够获得较高的识别率.  相似文献   

19.
高维数据中许多特征之间互不相关或冗余,这给传统的学习算法带来了巨大的挑战。为了解决该问题,特征选择应运而生。与此同时,许多实际问题中数据存在多个视图而且数据的标签难以获取,多视图学习和半监督学习成为机器学习中的热点问题。本文研究怎样从"部分标签"的多视图数据中选择最大相关最小冗余的特征子集,提出一种基于多视图的半监督特征选择方法。为了剔除冗余和无关的特征,探索蕴含于多视图数据中的互补信息以及每个视图中不同特征之间的冗余关系,并利用少量标签数据蕴含的信息协同未标签数据同时进行特征选择。实验结果验证了本算法能够获得很好的特征选择效果及聚类效果。  相似文献   

20.
张勇  支小莉 《计算机工程》2010,36(17):277-279
收集带有位置信息的经验样本即标定样本是一个花费昂贵的工作,限制了基于机器学习方法的实际应用。针对该问题,提出一种基于流形正则化的室内定位算法LocMR,该算法使用少量的标定样本和充足的未标定样本学习得出信号空间到位置空间的映射关系。在实际IEEE 802.11Wi-Fi环境中采集的数据集上进行验证,结果表明,LocMR在达到较高定位精确度的同时,能大幅减少定位系统的工作量,增强了其实际应用能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号