首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
数据的特征空间常随时间动态变化,而训练样本的数量固定不变,数据的特征空间在呈现超高维特点的同时通常伴随决策空间的类别不平衡问题.对此,文中提出基于最大决策边界的高维类不平衡数据在线流特征选择算法.借助邻域粗糙集模型,在充分考虑边界样本影响的基础上,定义自适应邻域关系,设计基于最大决策边界的粗糙依赖度计算公式.同时,提出三种在线特征子集评估指标,用于选择在大类和小类之间具有强区分能力的特征.在11个高维类不平衡数据集上的实验表明,在相同的实验环境及特征数量下,文中算法综合性能较优.  相似文献   

2.
在图像标注、疾病诊断等实际分类任务中,数据标记空间的类别通常存在着层次化结构关系,且伴随着特征的高维性.许多层次特征选择算法因不同的实际任务需求而提出,但这些已有的特征选择算法忽略了特征空间的未知性和不确定性.针对上述问题,提出一种基于ReliefF的面向层次分类学习的在线流特征选择算法OH_ReliefF.首先将类别...  相似文献   

3.
针对局部线性嵌入算法(LLE)无法利用样本的鉴别信息,最大边界准则算法(MMC)对非线性数据处理能力较弱的不足, 提出一种基于最大间距准则的稀疏局部嵌入(SLE/MMC)特征提取算法。在保持局部近邻的前提下,首先在类内紧致图中使同类样本尽可能地聚集在一起;然后在类间惩罚图中使不同类别的样本尽可能分离;最后使用弹性网回归(Elastic Net)算法得到一个最优的稀疏投影矩阵。为了避免“ 小样本” 问题, 采用MMC的形式构造目标函数。在ORL、Yale以及UMIST人脸库上的实验结果可以看到,同其他几种方法(PCA、LLE和MMC)相比,SLE/MMC具有更高的识别率,表明该方法具有更高效的特征提取能力。  相似文献   

4.
5.
基于最大熵的维吾尔语句子边界识别模型   总被引:1,自引:1,他引:1       下载免费PDF全文
采用最大熵模型实现维吾尔语句子边界识别,该模型的训练过程不需要提供手工收集规则、词性标注及形态分析,仅使用较容易获取的单词长度和音节等特征。为确定最佳特征模板,在特征空间上组合出不同特征模板进行测试。实验结果表明,最佳特征模板具有较强的鲁棒性,召回率可达97.72%。  相似文献   

6.
7.
在开放动态环境当中,特征是动态生成的,特征在不同时间戳内流入特征空间称为流特征.然而,在一些基于传统的邻域粗糙集流特征选择算法中,噪声点会对特征的依赖度计算造成影响.基于此,本文提出了基于抗噪声邻域粗糙集的在线流特征选择算法.首先,充分考虑噪声点的影响,定义一种抗噪声的邻域关系,并设计基于抗噪声邻域的依赖度计算公式.进一步,考虑到特征对不同类别所提供的信息不同,结合类别正域,提出了一种新的在线相关性分析方法和冗余分析方法.在8个数据集上的实验研究表明,所提算法得到的特征子集优于一些在线流特征选择算法.  相似文献   

8.
开放动态环境下的机器学习任务面临着数据特征空间的高维性和动态性。目前已有在线流特征选择算法基本仅考虑特征的重要性和冗余性,忽略了特征的交互性。特征交互是指那些本身与标签单独统计时呈现无关或弱相关,但与其他特征结合时却能与标签呈强相关的特征。基于此,提出一种基于邻域信息交互的在线流特征选择算法,该算法分为在线交互特征选择和在线冗余特征剔除两个阶段,即直接计算新到特征与整个已选特征子集的交互强弱程度,以及利用成对比较机制剔除冗余特征。在10个数据集上的实验结果表明了所提算法的有效性。  相似文献   

9.
流特征选择指从以流形式到来的特征数据中选出最优特征子集,现有方法大多在模型训练中需要事先学习领域信息并预设给定参数值。实际应用中,由于不同的数据集数据结构和来源不同,在模型学习过程中研究人员无法提前获取相关领域知识且针对不同类型数据集指定一个统一参数存在巨大挑战。基于此,提出一种基于自适应密度邻域关系的多标签在线流特征选择方法(multi-label online stream feature selection based on adaptive density neighborhood relation, ML-OFS-ADNR),基于邻域粗糙集理论,所提方法在特征依赖计算时无需任何先验领域信息。此外,提出了一种新的自适应密度邻域关系,使用周围实例的密度信息,可以在流特征选择过程中自动选择适当数量的邻域,不需要事先指定任何参数。通过模糊等价约束,ML-OFS-ADNR可以选择高依赖低冗余度的特征。实验表明在10种不同类型的数据集上,所提方法在特征数量相同的情况下优于传统特征选择方法和先进的在线流特征选择方法。  相似文献   

10.
杜政霖  李云 《计算机应用》2017,37(3):866-870
针对既有历史数据又有流特征的全新应用场景,提出了一种基于组特征选择和流特征的在线特征选择算法。在对历史数据的组特征选择阶段,为了弥补单一聚类算法的不足,引入聚类集成的思想。先利用k-means方法通过多次聚类得到一个聚类集体,在集成阶段再利用层次聚类算法对聚类集体进行集成得到最终的结果。在对流特征数据的在线特征选择阶段,对组构造产生的特征组通过探讨特征间的相关性来更新特征组,最终通过组变换获得特征子集。实验结果表明,所提算法能有效应对全新场景下的在线特征选择问题,并且有很好的分类性能。  相似文献   

11.
在分类学习任务中,数据的类标记空间存在层次化结构,特征空间伴随着未知性和演化性.因此,文中提出面向大规模层次分类学习的在线流特征选择框架.定义面向层次化结构数据的邻域粗糙模型,基于特征相关性进行重要特征动态选择.最后,基于特征冗余性进行鉴别冗余动态特征.实验验证文中算法的有效性.  相似文献   

12.
在已有的特征选择算法中,常用策略是通过相关准则选择与标记集合相关性较强的特征,然而该策略不一定是最优选择,因为与标记集合相关性较弱的特征可能是决定某些类别标记的关键特征.基于这一假设,文中提出基于局部子空间的多标记特征选择算法.该算法首先利用特征与标记集合之间的互信息得到一个重要度由高到低的特征序列,然后将新的特征排序空间划分为几个局部子空间,并在每个子空间设置采样比例以选择冗余性较小的特征,最后融合各子空间的特征子集,得到一组合理的特征子集.在6个数据集和4个评价指标上的实验表明,文中算法优于一些通用的多标记特征选择算法.  相似文献   

13.
特征选择旨在选择待处理数据中最具代表性的特征,降低特征空间的维度.文中提出基于局部判别约束的半监督特征选择方法,充分利用已标记样本和未标记样本训练特征选择模型,并借助相邻数据间的局部判别信息提高模型的准确度,引入l2,1约束提高特征之间可区分度,避免噪声干扰.最后通过实验验证文中方法的有效性.  相似文献   

14.
在许多实际应用中,数据经常呈现高维不平衡特征,特征还根据需求在不同时间段动态生成.基于此种情况,文中提出基于邻域粗糙集的高维类不平衡数据的在线流特征选择算法.算法设计基于小类重要度的粗糙依赖度计算公式,同时,提出在线相关性分析、在线冗余度分析、在线重要度分析三种策略,用于选择在大类和小类之间具有高可分离性的特征.在7个高维类不平衡数据集上的实验表明,文中算法可以有效选择一个较好的特征子集,性能较优.  相似文献   

15.
提出了一种新的面向高维数据的特征选择方法,在特征子集搜索上采用遗传算法进行随机搜索,在特征子集评价上采用基于边界点的可分性度量作为评价指标及适应度。实验结果表明,该算法可有效地找出具有较好的可分离性的特征子集,从而实现降维并提高分类 精度。  相似文献   

16.
顾徐鹏 《微型电脑应用》2011,27(5):11-13,68
针对人脸识别中的特征挑选和特征融合问题进行研究。结合已有的基于AdaBoost的人脸特征挑选方法,挑选出最具分类能力的特征,并将挑选出的多类人脸特征在特征层进行融合,得到一个统一的人脸特征用于模式分类。通过在FERET人脸库上的实验表明,其识别方法具有良好的识别效果。  相似文献   

17.
基于Gabor特征的人脸表情识别系统虽具有良好的识别性能,但特征维数大、分类器复杂度高。因此,文中提出一种基于PHOG特征与聚类线性鉴别分析(CLDA)的笑脸识别方法。PHOG特征的引入在于简化系统的运算复杂度,而CLDA克服传统线性鉴别分析方法的多模态问题。实验结果表明PHOG特征免去Gabor特征在Adaboost耗时的特征选择过程,具有和Gabor特征相当或更优的识别性能,且CLDA在维数降低时,系统的识别率能得到更好保持。  相似文献   

18.
提出一种在线签名认证中的特征提取和特征选择的方法.采用一种F-Tablet手写板采集签名数据.该手写板的特点是不仅可记录签名时的字形信息(x,y)序列,还可记录签名时的五维力信息(Fx,Fy,Fz,Mx,My)序列.从每个签名中提取3个等级共188个特征,接着定义特征重要性函数F,然后根据特征的重要性函数F的值对选取的188个特征进行排序,对F设不同的阈值就可完成不同的特征选择.在认证过程中使用SVM算法对选取的特征进行训练,然后用训练所得的模型进行验证.该方法的错误拒绝率为1.2%,错误接受率为3.7%.  相似文献   

19.
陆江  李云 《计算机科学》2015,42(8):44-47, 81
特征选择已经成为一种对高维数据进行预处理的必不可少的手段。随着数据规模的爆炸性增长,传统的特征选择算法已经不能满足当前高维大规模数据的处理要求。采用Google的MapReduce编程模型,设计了一种分布式的基于局部学习的特征选择算法D-logsf。在多个现实和合成数据集上的实验表明,分布式特征选择算法D-logsf具有较好的可靠性,且与传统特征选择算法Logsf相比可以获得接近线性的加速比,同时可以有效处理大规模数据集。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号