首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
王晨曦    刘园奎    吕彦    林耀进   《南京师范大学学报》2022,(4):009-18
在实际应用领域中,存在许多特征空间无法预先给定的场景,数据以特征流的形式随时间动态流入特征空间,而样本数量是固定不变的. 同时,数据的类别中往往存在丰富的层次化结构关系,传统的特征选择算法在性能上已无法满足需求. 基于此,本文提出一种面向层次分类学习的在线流特征选择算法. 首先,利用兄弟节点之间的关系设计了一种基于最大近邻的决策误差率计算公式. 其次,设计在线重要性选择和在线冗余更新两种在线评估准则,用于选择决策误差最小的特征子集. 最后,在6个层次数据集上的实验结果表明,所提算法优于一些现有的在线流特征选择算法.  相似文献   

2.
基因芯片数据具有维数高、样本少、高冗余的特点,以基因芯片数据进行特征选择及分类处理为研究对象。粗糙集理论能很好地消除冗余数据,但它不适应连续型的基因芯片数据,通过基于邻域粗糙集模型的方法能很好地解决这一问题,但如何选择好邻域半径来提高分类效率一直没有固定的方法。从各条件属性标准差来得到一组邻域半径,进而得到各样本邻域。经典的芯片数据实验表明:基于优化的邻域半径组比传统设定单一的邻域半径能取得较好的分类效果,和传统的特征选择算法做比较也能得到较少的特征基因和较高的分类能力。  相似文献   

3.
在大数据时代,数据的标签数量急剧增加,且标签集之间往往存在层次结构,利用层次结构进行大规模分类学习可有效解决维数灾难、类别不均衡问题,是近年来的研究热点.模糊粗糙集作为处理不确定性信息的有效工具,对于层次结构的描述有着特别的优势,本文给出了一种基于样本对选择的分层特征选择方法.通过将层次结构融入到目标概念的上、下近似之中,给出了一种新的模糊粗糙集模型,并研究了其详细性质,基于此,设计了一种基于样本对选择的特征选择算法,实验结果表明,本文所提出的算法在效率和准确性方面优于平面算法,从而为基于粒计算的分层特征选择提供了一种可能的框架.  相似文献   

4.
基于邻域关系的网络入侵检测特征选择   总被引:1,自引:0,他引:1  
入侵检测数据集具有数据量大、特征敷众多、连续型数据的特点.粗糙集是一种有效处理不确定性、不一致性、海量数据的有效分类工具,其特点是保持入侵检测数据集的分类能力不变,进行特征选择.为了避免传统粗糙集特征选择方法所必需的离散化过程带来的信息损失,引入邻域粗糙集模型,提出基于邻域关系的网络入侵检测数据特征选择方法.该方法从所有特征出发,根据特征重要度逐步删除冗余的特征,最后得到关键特征组进行分类研究.在CUP99入侵检测数据集上进行特征选择,并进行了分类实验,实验结果表明该方法是有效可行的.  相似文献   

5.
潘思远    刘园奎    毛煜    林耀进   《南京师范大学学报》2023,(1):066-74
多标记学习可以同时处理与一组标记相关的数据,多标记学习的研究对于多义性对象的学习建模具有十分重要的意义. 与传统的单标记学习一样,数据的高维性是多标记学习的阻碍,因此数据降维是一项十分重要的工作,而特征选择是一种有效的数据降维技术. 提出了基于邻域近似误差率的多标记特征选择算法. 首先,在邻域粗糙集理论的基础上,引入实例的边界来对所有实例进行粒度化. 其次,基于邻域决策误差率提出了邻域近似误差率的策略来评价特征. 最后,在公开的数据集上进行了大量的实验,结果表明所提算法的有效性.  相似文献   

6.
多标记学习可以同时处理与一组标记相关的数据,多标记学习的研究对于多义性对象的学习建模具有十分重要的意义.与传统的单标记学习一样,数据的高维性是多标记学习的阻碍,因此数据降维是一项十分重要的工作,而特征选择是一种有效的数据降维技术.提出了基于邻域近似误差率的多标记特征选择算法.首先,在邻域粗糙集理论的基础上,引入实例的边界来对所有实例进行粒度化.其次,基于邻域决策误差率提出了邻域近似误差率的策略来评价特征.最后,在公开的数据集上进行了大量的实验,结果表明所提算法的有效性.  相似文献   

7.
针对细粒度图像分类任务的长尾分布问题,提出了一种基于多尺度特征Transformer的细粒度图像分类方法,实现了底层与深层特征的保护并优化了长尾分布。首先,设计了混合数据采样方法,获取用于优化表征学习、长尾分布和细粒度特征的三元组数据;然后,设计了Transformer多尺度特征优化方法,分别通过底层特征对比学习方法与深层特征平衡学习方法优化特征学习过程,改善类别混淆和细粒度特征的提取,在保护头部类别特征学习的同时增加对尾部类别的关注。仿真结果表明,所提方法可以有效地改善细粒度图像分类任务中长尾分布带来的影响,优化特征分布,提高分类准确率。  相似文献   

8.
为了提升下游模型的性能,获得质量更好的约简数据集,提出基于粒子群优化(PSO)的模糊粗糙集特征和实例联合选择算法,引入基于ε-双约简的适应度函数来评估约简集的质量,引导搜索过程快速逼近最优解.实验结果表明,基于PSO算法的模糊粗糙集双约简算法有效约简了实例和特征,获得了高质量的约简集,在分类任务中取得了优于原始数据集的准确度.  相似文献   

9.
为了提高AdaBoost集成学习算法的数据分类性能,提出基于合群度-隶属度噪声检测及动态特征选择的改进AdaBoost算法. 综合考虑待检测样本与邻居样本的相似度及与不同类别样本集的隶属关系,引入合群度和隶属度的概念,提出新的噪声检测方法. 在此基础上,为了更好地选择那些能够有效区分错分样本的特征,在传统过滤器特征选择方法的基础上提出通用的结合样本权重的动态特征选择方法,以提高AdaBoost算法针对错分样本的分类能力. 以支持向量机作为弱分类器,在8个典型数据集上分别从噪声检测、特征选择及现有方法比较3个方面进行实验. 结果表明,所提算法充分考虑了噪声样本和样本权重对AdaBoost分类结果的影响,相对于传统算法在分类性能上获得显著提升.  相似文献   

10.
肿瘤基因选择方法LLE Score   总被引:1,自引:0,他引:1  
针对处理肿瘤基因表达数据特征选择问题,提出了一种特征选择方法 LLE Score.该方法是典型的过滤器类型特征选择方法,在样本类别信息的基础上,LLE Score针对特征向量的局部邻域保存能力进行评价,并且根据评价结果进行特征的选取,以此达到良好的特征选择效果.在实验部分对肿瘤数据集进行特征选择,并采用支持向量机分类器计算分类准确率.通过分类准确率说明了该方法的有效性.  相似文献   

11.
基于邻域关系的决策表约简   总被引:1,自引:0,他引:1  
针对经典粗糙集理论难以处理连续型数据的特点,提出基于邻域关系的决策表约简方法。该方法在连续型数据的决策表中引入邻域关系,通过邻域关系进行信息粒化,避免离散化过程带来的信息损失。通过定义邻域正域和邻域约简概念,分析邻域正域的单调性原理,提出基于邻域关系的属性重要度概念,进一步设计了两种启发式约简算法。理论分析与实例表明该方法是有效可行的。  相似文献   

12.
广义不完备混合决策系统的知识约简   总被引:2,自引:0,他引:2  
针对现实中同时具有丢失型和遗漏型未知属性的混合决策系统的约简问题,建立了广义不完备邻域粗糙集模型,提出了未知属性的辨别方法,给出了一种混合约简算法.模型采用广义邻域关系度量不可分辨关系,通过邻域信息粒子逼近论域空间,是非对称相似关系和容差关系的广义化.依据分类一致性假设及广义邻域关系进行未知属性的辨别,讨论了噪声样本和邻域大小对分类精度的影响.采用UCI数据库中5组数据进行了仿真试验,预测精度证明了约简算法的有效性和可行性.  相似文献   

13.
提出一种基于全局距离和类别信息的邻域保持嵌入算法。该方法在使用欧氏距离构造邻域图中,加入表征全局距离的全局因子和表示类别信息的函数项,全局因子可以使分布不均匀的样本变得平滑均匀,类别信息可以使同类样本点紧凑异类样本点疏离,通过提高所选邻近点的质量,优化数据的局部邻域,使降维后的数据具有更好的可分性。试验结果表明,该算法具有较高的准确率,优于传统的邻域保持嵌入算法。  相似文献   

14.
随着网络上非平衡数据的大量涌现,使得对非平衡数据分类的研究成为一个新的研究热点.根据特征在类别中的分布特点,提出了基于类间、类内分布的方法.该方法不但充分考虑了稀有类别信息对特征选择的影响,使得构造的类别分布函数能够相当好地反映稀有特征的信息,而且能够选出对非平衡数据分类贡献大的特征.实验结果表明:此方法的MacroF...  相似文献   

15.
特征选择及其常用算法   总被引:1,自引:0,他引:1  
压缩特征向量的维数,在较低维特征空间中进行分类器设计是特征选择与提取的目的.本文介绍了相关概念,给出了常见的几种类别可分性判据,讨论了特征选择的几种常用算法。  相似文献   

16.
提出一种用于变精度邻域粗糙集,可以大幅减少时间复杂度的属性约简算法.该算法基于一种改进的辨识矩阵.首先用辨识矩阵同时记录决策一致和不一致的数据,然后用二进制位运算计算样本的邻域,最后获得可以保持下近似分布不变的属性约简.实验结果证明,本文算法不仅能够大幅减少属性约简时间,而且精度上总体优于NBRS算法和LDNRS算法.  相似文献   

17.
基于邻域的概念,提出一种新的样本筛选方法用于分类问题.该方法在特征空间中根据邻域内的样本类别筛选出具有代表性的训练样本,计算其与测试样本的距离作为样本所属类别的判定依据.在UCI数据集和电力系统负荷预测的应用当中,与SVM和NC两种分类方法进行对比分析,证明该方法能够较好地提高样本识别率并降低时间复杂度.  相似文献   

18.
结合Filter和Wrapper方法的优点,提出一种基于集成遗传算法(FSEGA)的特征选择方法,用于从基因表达谱数据中选择特征基因。根据基因正负样本的分布关系定义信息指标过滤噪声基因,在递归特征消除过程中根据基因的集成权值生成候选基因子集,选择分类测试中具有最高AUC(接收者工作特征曲线下的面积)值的候选基因子集作为基因表达谱数据集的特征基因子集,将支持向量机(SVM)用于算法的适应度函数,研究FSEGA方法与分类器算法之间的关系,对5个肿瘤特征基因表达谱数据集进行基因选取实验。结果表明,采用提出的集成特征选取方法选取的特征基因集合含丰富类别信息,重复性较好,提高了肿瘤特征基因选取的稳定性和鲁棒性。  相似文献   

19.
针对信息增益算法只能考察特征对整个系统的贡献、忽略特征对单个类别的信息贡献的问题,提出改进信息增益算法,通过引入权重系数调整对分类有重要价值的特征的信息增益值,以更好地考虑一个词在类别间的分布不均匀性. 针对传统专利自动分类中训练集标注瓶颈问题,提出基于改进三体训练算法的半监督分类方法,通过追踪每次更新后的训练集样本类别分布来动态改变3个分类器对同一未标记样本类别的预测概率阈值,从而在降低噪音数据影响的同时实现对未标记训练样本的充分利用. 实验结果表明,本研究所提出的分类方法在有标记训练样本较少的情况下,可以取得较好的自动分类效果,并且适当增大未标记样本数据可以增强分类器的泛化能力.  相似文献   

20.
针对现实中同时具有不完备、模糊、混合属性值域决策系统的约简问题,建立了广义邻域粗糙集模型,提出了未知属性的辨别方法和基于属性重要度的约简算法。采用广义邻域关系度量不可分辨关系,通过邻域粒子逼近论域空间,是非对称相似关系、容差关系和模糊等价关系的广义化,可以直接处理同时含有名义型、数值型、模糊型、丢失型和遗漏型不完备属性的混合决策系统。依据分类一致性假设及广义邻域关系进行未知属性的辨别,讨论了噪声样本和邻域大小对分类精度的影响,给出了约简算法的具体实现。采用HitSHT数据和UCI数据库中2组数据进行了仿真试验,预测精度证明了模型的合理性及约简算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号