首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 62 毫秒
1.
基因表达谱中信息基因选择是有效建立肿瘤分类模型的关键问题。肿瘤基因表达谱具有高维小样本、噪声大且存在大量无关和冗余基因等特点。为了获得基因数量尽可能少而分类能力尽可能强的一组信息基因,提出一种基于对称不确定性和邻域粗糙集的肿瘤分类信息基因选择SUNRS方法。首先利用对称不确定性指标评估信息基因的重要度,以剔除大量无关和冗余基因,获取信息基因的候选子集;然后利用邻域粗糙集约简算法对信息基因候选子集进行寻优,获得信息基因的目标子集。实验结果表明,SUNRS方法能够用较少的信息基因获得更高的分类精度,从而既能改善算法的泛化性能,又能提高时间效率。  相似文献   

2.
针对连续型属性的数据集,当有新样本加入时,可能引起最佳属性约简子集变化的问题,提出了基于邻域粗糙集的特征子集增量式更新方法.根据新增样本对正域的影响,分情况对原数据集的属性约简子集进行动态更新,以便得到增加样本后的新数据的最佳属性约简子集.这种对原约简集合进行的有选择的动态更新可以有效地避免重复操作,降低算法复杂度,只有在最坏的情况下才需要对整个数据集进行重新约简.并以一个实例进行分析说明.实例分析表明,先对新增样本进行分析,然后选择性对新数据集进行约简可以有效地避免重复操作,得到新数据集的最佳属性约简子集.  相似文献   

3.
在开放动态环境当中,特征是动态生成的,特征在不同时间戳内流入特征空间称为流特征.然而,在一些基于传统的邻域粗糙集流特征选择算法中,噪声点会对特征的依赖度计算造成影响.基于此,本文提出了基于抗噪声邻域粗糙集的在线流特征选择算法.首先,充分考虑噪声点的影响,定义一种抗噪声的邻域关系,并设计基于抗噪声邻域的依赖度计算公式.进一步,考虑到特征对不同类别所提供的信息不同,结合类别正域,提出了一种新的在线相关性分析方法和冗余分析方法.在8个数据集上的实验研究表明,所提算法得到的特征子集优于一些在线流特征选择算法.  相似文献   

4.
在多标记学习中,数据降维是一项重要且具有挑战性的任务,而特征选择又是一种高效的数据降维技术。在邻域粗糙集理论的基础上提出一种多标记专属特征选择方法,该方法从理论上确保了所得到的专属特征与相应标记具有较强的相关性,进而改善了约简效果。首先,该方法运用粗糙集理论的约简算法来减少冗余属性,在保持分类能力不变的情况下获得标记的专属特征;然后,在邻域精确度和邻域粗糙度概念的基础上,重新定义了基于邻域粗糙集的依赖度与重要度的计算方法,探讨了该模型的相关性质;最后,构建了一种基于邻域粗糙集的多标记专属特征选择模型,实现了多标记分类任务的特征选择算法。在多个公开的数据集上进行仿真实验,结果表明了该算法是有效的。  相似文献   

5.
基于邻域粗糙集的多标记分类特征选择算法   总被引:4,自引:0,他引:4  
多标记学习是一类复杂的决策任务,同一个对象可能同时属于多个类别.此类任务在文本分类、图像识别、基因功能分析等领域广泛存在.多标记分类任务往往由高维特征描述,存在大量无关和冗余的信息.目前已经提出了大量的单标记特征选择算法以应对维数灾难问题,但对于多标记的属性约简和特征选择却鲜有研究.将粗糙集应用于多标记数据的特征选择中,针对多标记分类任务,重新定义了邻域粗糙集的下近似和依赖度计算方法,探讨了这一模型的性质,进而构造了基于邻域粗糙集的多标记分类任务的特征选择算法,并给出了在公开数据上的实验结果.实验分析证明算法的有效性.  相似文献   

6.
在多标记学习与分类中,现有邻域粗糙集特征选择算法若将样本的分类间隔作为邻域半径,则会出现分类间隔过大导致分类无意义、样本距离过大容易造成异类样本和同类样本失效,以及无法处理弱标记数据等情况.为解决这些问题,提出一种基于多标记邻域粗糙集和多标记Relief的弱标记特征选择方法.首先,引入异类样本数和同类样本数来改进分类间...  相似文献   

7.
孙林  赵婧  徐久成  王欣雅 《计算机应用》2022,42(5):1355-1366
针对经典的帝王蝶优化(MBO)算法不能很好地处理连续型数据,以及粗糙集模型对于大规模、高维复杂的数据处理能力不足等问题,提出了基于邻域粗糙集(NRS)和MBO的特征选择算法。首先,将局部扰动和群体划分策略与MBO算法结合,并构建传输机制以形成一种二进制MBO(BMBO)算法;其次,引入突变算子增强算法的探索能力,设计了基于突变算子的BMBO(BMBOM)算法;然后,基于NRS的邻域度构造适应度函数,并对初始化的特征子集的适应度值进行评估并排序;最后,使用BMBOM算法通过不断迭代搜索出最优特征子集,并设计了一种元启发式特征选择算法。在基准函数上评估BMBOM算法的优化性能,并在UCI数据集上评价所提出的特征选择算法的分类能力。实验结果表明,在5个基准函数上,BMBOM算法的最优值、最差值、平均值以及标准差明显优于MBO和粒子群优化(PSO)算法;在UCI数据集上,与基于粗糙集的优化特征选择算法、结合粗糙集与优化算法的特征选择算法、结合NRS与优化算法的特征选择算法、基于二进制灰狼优化的特征选择算法相比,所提特征选择算法在分类精度、所选特征数和适应度值这3个指标上表现良好,能够选择特征数少且分类精度高的最优特征子集。  相似文献   

8.
陈涛  洪增林  邓方安 《计算机科学》2014,41(10):291-294,316
DNA微阵列技术可以同时检测细胞内成千上万的基因的活性,被广泛应用于重大基因疾病的临床诊断。然而微阵列数据通常具有高维小样本特点,且存在大量噪声和冗余基因。为了进一步提高微阵列数据分类性能,提出一种特征基因混合选择算法。首先采用ReliefF算法剔除大量无关基因,获得特征基因候选子集;然后采用基于差分进化算法优化的邻域粗糙集模型实现特征基因选择;最后利用支持向量机进行分类,以验证算法的有效性。仿真实验结果表明,该算法能用尽可能少的特征基因来获得更高的分类精度,既增强了算法的泛化性能,又提高了时间效率,而且对致病基因的临床诊断有着重要的参考意义。  相似文献   

9.
特征选择是数据预处理中一项很重要的技术,主要从原始数据集的特征中选出一些最有效的特征以降低数据集的维度,从而提高学习算法性能.目前基于邻域粗糙集模型的特征选择算法中,由于没有考虑数据分布不均的问题,对象的邻域存在一定的缺陷.为了解决这个问题,采用方差来度量数据的分布情况,重新定义二元邻域空间,基于此提出自适应二元邻域空间的粗糙集模型,并将该模型与邻域直觉模糊熵结合作为特征评估的方式,进而构造相应的特征选择算法.UCI实验结果表明:所提出的算法能够选出更小且具有更高分类精度的特征子集,同时算法拥有更少的时间消耗.因此所提的特征选择算法具有更强的优越性.  相似文献   

10.
为了避免连续数据离散化处理时造成的信息损失,降低样本属性邻域求解的复杂度,提高特征基因提取的效率。该文在单调度量空间上,提出了一种基于单调邻域粗糙集的特征基因提取方法。并在两个标准的基因表达数据上进行了实验,结果证明该方法是有效可行的。  相似文献   

11.
数值型不完备信息系统的特征选择方法大多是以容差关系为基础,但是这种处理方式存在数据相似性刻画过于宽松的缺陷.文中提出邻域量化容差关系的粗糙集模型,在该模型的基础上定义邻域量化容差条件熵,分析相关性质,根据邻域量化容差条件熵的单调性构造相应的特征选择算法.实验表明,文中算法在特征选择结果、运行时间和分类精度方面具有优越性.  相似文献   

12.
在分类学习任务中,数据的类标记空间存在层次化结构,特征空间伴随着未知性和演化性.因此,文中提出面向大规模层次分类学习的在线流特征选择框架.定义面向层次化结构数据的邻域粗糙模型,基于特征相关性进行重要特征动态选择.最后,基于特征冗余性进行鉴别冗余动态特征.实验验证文中算法的有效性.  相似文献   

13.
在许多实际应用中,数据经常呈现高维不平衡特征,特征还根据需求在不同时间段动态生成.基于此种情况,文中提出基于邻域粗糙集的高维类不平衡数据的在线流特征选择算法.算法设计基于小类重要度的粗糙依赖度计算公式,同时,提出在线相关性分析、在线冗余度分析、在线重要度分析三种策略,用于选择在大类和小类之间具有高可分离性的特征.在7个高维类不平衡数据集上的实验表明,文中算法可以有效选择一个较好的特征子集,性能较优.  相似文献   

14.
利用一种具有混合编码的二进制差分演化算法进行特征选择,并针对传统评价函数对样本邻域局部信息利用不足的问题,引入邻域粗糙集模型,省去了对数值型数据的离散化过程,同时分析了依赖度度量和邻域识别率度量可能存在的问题,综合两者提出加权邻域识别率,对特征子集适应度进行更好的评价.通过UCI数据进行实验,结果表明该方法能有效进行特征选择.  相似文献   

15.
针对冗余属性和不相关属性过多对肺部肿瘤诊断的影响以及Pawlak粗糙集只适合处理离散变量而导致原始信息大量丢失的问题,提出混合信息增益和邻域粗糙集的肺部肿瘤高维特征选择算法(Information gain-neighborhood rough set-support vector machine,IG-NRS-SVM)。该算法首先提取3 000例肺部肿瘤CT图像的104维特征构造决策信息表,借助信息增益结果选出高相关的特征子集,再通过邻域粗糙集剔除高冗余的属性,通过两次属性约简得到最优的特征子集,最后采用网格寻优算法优化的支持向量机构建分类识别模型进行肺部肿瘤良恶性的鉴别。从约简和分类识别两个角度验证方法的可行性与有效性,并与不约简算法、Pawlak粗糙集、信息增益和邻域粗糙集约简算法进行对比。结果表明混合算法精确度优于其他对比算法,精确度达到96.17%,并且有效降低了时间复杂度,对肺部肿瘤计算机辅助诊断具有一定的参考价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号