首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
焦娜 《计算机科学》2013,40(Z6):125-128,140
在基因表达数据中,有效的基因选择方法是癌症基因数据研究的重要内容。粗糙集是一个去掉冗余特征的有效工具。由于基因表达数据的连续性,为了避免运用粗糙集方法所必须的离散化过程带来的信息丢失,将相容粗糙集应用于基因的特征选择,提出基于相容粗糙集的基因特征选择方法,并在此方法基础上进一步对粗糙集的边界域进行研究,提出了基于相容粗糙集的改进的基因特征选择方法。在两个标准的基因表达数据上进行实验,结果表明与传统的基因特征选择方法相比,所提方法能够有效提高分类精度。  相似文献   

2.
基于模糊粗糙集的肿瘤分类特征基因选取   总被引:2,自引:0,他引:2  
依据基因表达谱有效建立肿瘤分类模型的关键在于,准确找出决定样本类剐的一组特征基因.粗糙集理论作为一种新的软计算方法能够保持在原数据集的分类能力不变的基础上,对属性极大约简,从大量基因中找到对分类有效的基因.由于基因表达谱数据集的连续性,为了避免运用粗糙集方法所必需的离散化过程带来的信息丢失,尝试将模糊粗糙集应用于特征基因的选取,提出了基于互信息的模糊粗糙集属性约简算法,运用于基因表达谱数据集的基因选取.然后分别采用KNN和C5.0分类器进行特征基因分类性能进行检验.以急性白血病亚型(leukemia Microarray)和直肠癌(colon Microarray)分类特征基因选取为例进行实验,结果表明了上述方法的可行性和有效性.  相似文献   

3.
焦娜 《计算机科学》2016,43(1):49-52
粗糙集理论是一个能有效地删除冗余特征的工具。由于实际应用的数据往往是连续的,并且结构复杂、特征多,现有的粗糙集知识约简方法对真实复杂的数据计算效率较低。为此,首先将相容关系应用于粗糙集的知识约简,再将复杂的信息表纵向分割成简单的缩减表和小规模信息表,然后把缩减表和小规模信息表连接起来进行知识约简。实例表明,提出的方法能够有效提高粗糙集对复杂数据的计算效率。  相似文献   

4.
孟军  李锐  郝涵 《计算机科学》2015,42(6):37-40, 66
在对基因微阵列数据的特征选择和分类的研究中,粗糙集理论是一个可以消除冗余基因的有效工具.但是传统的粗糙集模型不能很好地处理连续型数值数据,而离散化方法可能会导致信息的丢失.为此,提出了一种基于相交邻域粗糙集模型的属性约简算法,即将传统粗糙集中的距离邻域扩展为相交邻域,采用基于集合的方式来定义近似,以此构建粗糙集模型.在癌症数据集上进行实验,结果表明基于集合近似和相交邻域的粗糙集模型可以取得较好的分类效果,并且通过对选择出的基因进行GO术语分析,进一步证明了该模型的有效性.  相似文献   

5.
基于量子遗传算法的粗糙集属性约简新方法   总被引:3,自引:0,他引:3  
分析了粗糙集属性约简的研究现状,针对遗传算法求取属性约简中存在的迭代次数多、收敛较慢的问题,提出了基于量子遗传算法的粗糙集属性约简的新方法。该方法中利用一种新的区分矩阵与量子遗传算法结合,能够实现相容/不相容决策表的属性约简;同时,文中提出了一种适应度函数的参数设定的新方法,使之能够直接对约简进行有效判定。实验数据表明:该算法在收敛性和速度等方面优于基于遗传算法的属性约简算法。  相似文献   

6.
提出了一种基于覆盖粗糙集理论,利用最大一致块技术进行不完备信息系统约简的方法。在证明利用最大一致块技术生成的相容类构成论域的最简覆盖基础上,利用覆盖粗糙集理论对已利用最大一致块技术进行属性约简的信息系统进行属性值约简,并提出一种新的约简算法。  相似文献   

7.
广义粗糙集理论及实值属性约简   总被引:1,自引:0,他引:1  
肖迪  张军峰 《计算机应用》2008,28(6):1420-1423
针对经典粗糙集理论仅能处理离散化数据的局限性,提出属性和属性子集的广义重要度的概念以及空间中的广义近邻关系,并提出了广义近邻关系下的广义粗糙集扩展模型。广义粗糙集理论利用广义近邻关系在全局中划分相容模块,构成集合的下、上近似集,避免了经典粗糙集理论必须量化数据的麻烦。另外,提出了广义粗糙集的实值属性约简的一种贪心算法,并分析了约简属性集合的质量。最后通过实例验证了所提方法的正确性和有效性。  相似文献   

8.
提出了一种基于覆盖粗糙集理论,利用最大一致块技术进行不完备信息系统约简的方法。在证明利用最大一致块技术生成的相容类构成论域的最简覆盖基础上,利用覆盖粗糙集理论对已利用最大一致块技术进行属性约简的信息系统进行属性值约简,并提出一种新的约简算法。  相似文献   

9.
特征基因选择在微阵列数据分析中占据着非常重要的作用,好的特征选择方法是提高基因表达数据的分类精度与分类速度的关键之一.联系蚁群算法和粗糙集理论在微阵列数据处理上的优势,文中结合粗糙集理论,对蚁群优化算法模型进行了改进,并将粗糙集的属性依赖度和属性重要度应用到蚁群算法的路径选择及评估中,提出一种新的基因选择方法.该方法实现简单,并可以比较快速地获得最优解,最终选择出较小的并且分类性能较强的特征基因子集.通过对基因数据集的仿真实验表明,该算法是有效可行的.  相似文献   

10.
该文对粗糙集理论进行了研究,提出一种基于树的约简算法。该算法的特点是能够得到决策表的所有约简,并且适合相容决策表和不相容决策表。通过构造约简树,得到基于约简树的决策表的极小属性集,最后通过实例来验证该算法。  相似文献   

11.
一种基于拆分的基因选择算法   总被引:1,自引:0,他引:1  
基因表达数据是由成千上万个基因及几十个样本组成的,有效的基因选择算法是基因表达数据研究的重要内容。粗糙集是一个有效的去掉冗余特征的工具。然而,对于含有成千上万特征、几十个样本的基因表达数据,现有基于粗糙集的特征选择算法的计算效率会变得非常低。为此,将拆分方法应用于特征选择,提出了一种基于拆分的特征选择算法。该算法把一个复杂的表拆分成简单的、更容易处理的主表与子表形式,然后把它们的结果连接到一起解决初始表的问题。实验结果表明,该算法在保证分类精度的同时,能明显提高计算效率。  相似文献   

12.
Tumor classification based on gene expression levels is important for tumor diagnosis. Since tumor data in gene expression contain thousands of attributes, attribute selection for tumor data in gene expression becomes a key point for tumor classification. Inspired by the concept of gain ratio in decision tree theory, an attribute selection method based on fuzzy gain ratio under the framework of fuzzy rough set theory is proposed. The approach is compared to several other approaches on three real world tumor data sets in gene expression. Results show that the proposed method is effective. This work may supply an optional strategy for dealing with tumor data in gene expression or other applications.  相似文献   

13.
建立病变组织分类模型的关键在于找出一组能准确区分样本类别的特征基因。糙集理论中的属性依赖度分析方法能对目标数据进行有效分析。基于属性间的依赖关系和属性对决策的影响存在这样的关系,即属性依赖度越大,属性就越重要,对决策划分的影响就越大,提出了一种属性最大依赖度(maximum dependency of attributes based on rough sets,MDA-RS)算法,并将其应用于特征基因选取。首先用启发式K-均值聚类算法对基因进行聚类分析得到类数为k的基因子集;然后用MDA-RS选出每类的  相似文献   

14.
基于差异关系的变精度粗糙集知识约简算法研究   总被引:1,自引:0,他引:1  
焦娜 《计算机科学》2015,42(5):265-269
有效的知识约简算法是粗糙集理论的重要研究内容.粗糙集是一个去掉冗余特征的有效工具.经典的粗糙集方法要求数值用离散数据表达,对于连续值则在处理前必须进行离散化处理.真实数据往往存在连续值,为了避免运用粗糙集方法所必需的离散化过程带来的信息丢失,将差异关系应用于粗糙集的知识约简.为进一步增强差异关系粗糙集对噪声数据的适应能力,提出基于差异关系的变精度粗糙集知识约简算法,并分析差异关系下变精度粗糙集模型参数的特性,给出依赖度和参数范围关系描述,将参数取值从点扩展到区间范围.在UCI数据库的数据集上进行实验,结果证明了所提方法及相关理论的有效性.  相似文献   

15.
Attribute selection is one of the important problems encountered in pattern recognition, machine learning, data mining, and bioinformatics. It refers to the problem of selecting those input attributes or features that are most effective to predict the sample categories. In this regard, rough set theory has been shown to be successful for selecting relevant and nonredundant attributes from a given data set. However, the classical rough sets are unable to handle real valued noisy features. This problem can be addressed by the fuzzy-rough sets, which are the generalization of classical rough sets. A feature selection method is presented here based on fuzzy-rough sets by maximizing both relevance and significance of the selected features. This paper also presents different feature evaluation criteria such as dependency, relevance, redundancy, and significance for attribute selection task using fuzzy-rough sets. The performance of different rough set models is compared with that of some existing feature evaluation indices based on the predictive accuracy of nearest neighbor rule, support vector machine, and decision tree. The effectiveness of the fuzzy-rough set based attribute selection method, along with a comparison with existing feature evaluation indices and different rough set models, is demonstrated on a set of benchmark and microarray gene expression data sets.  相似文献   

16.
本文利用粗糙集与布尔逻辑离散约简算法改进了粗糙自组织映射算法,并应用于基因表达数据的分析中.算法改进了传统自组织映射收敛慢、网络规模难以确定的缺点,减小了网络规模不确定对分类效果的影响.使用酵母茵基因表达数据进行实验,得到了较好的网络质量、网络规模和分类效果,相比传统自组织映射使分类正确率提高了10.15%.  相似文献   

17.
Feature selection plays a vital role in many areas of pattern recognition and data mining. The effective computation of feature selection is important for improving the classification performance. In rough set theory, many feature selection algorithms have been proposed to process static incomplete data. However, feature values in an incomplete data set may vary dynamically in real-world applications. For such dynamic incomplete data, a classic (non-incremental) approach of feature selection is usually computationally time-consuming. To overcome this disadvantage, we propose an incremental approach for feature selection, which can accelerate the feature selection process in dynamic incomplete data. We firstly employ an incremental manner to compute the new positive region when feature values with respect to an object set vary dynamically. Based on the calculated positive region, two efficient incremental feature selection algorithms are developed respectively for single object and multiple objects with varying feature values. Then we conduct a series of experiments with 12 UCI real data sets to evaluate the efficiency and effectiveness of our proposed algorithms. The experimental results show that the proposed algorithms compare favorably with that of applying the existing non-incremental methods.  相似文献   

18.
《Knowledge》2007,20(5):485-494
Any attribute set in an information system may be evolving in time when new information arrives. Approximations of a concept by rough set theory need updating for data mining or other related tasks. For incremental updating approximations of a concept, methods using the tolerance relation and similarity relation have been previously studied in literature. The characteristic relation-based rough sets approach provides more informative results than the tolerance-and-similarity relation based approach. In this paper, an attribute generalization and its relation to feature selection and feature extraction are firstly discussed. Then, a new approach for incrementally updating approximations of a concept is presented under the characteristic relation-based rough sets. Finally, the approach of direct computation of rough set approximations and the proposed approach of dynamic maintenance of rough set approximations are employed for performance comparison. An extensive experimental evaluation on a large soybean database from MLC shows that the proposed approach effectively handles a dynamic attribute generalization in data mining.  相似文献   

19.
张树波  赖剑煌 《计算机科学》2010,37(12):171-174
基因表达数据的出现,为人类从分子生物学的角度研究和探索癌症的发病机理提供了广阔的前景,利用基因表达数据发现与癌症相关的基因对于癌症的诊断和治疗具有重要的意义。在过去的十几年里,已经有很多种计算方法被成功地用于从基因表达数据中找出与癌症相关的关键基因,然而,不同的方法从不同的角度刻画基因对不同类型样本的区分能力,它们选择出来的关键基因可能不一致,这将给医学解释和应用带来困扰。现提出一种融合的方法,即将基因在不同方面对样本的判别能力结合起来,首先计算每个基因的信息增益、全局判别能力和局部判别能力,再用它们的识别率进行加权,进而计算每个基因的综合判别能力,最后筛选出判别能力最高的基因子集作为关键基因子集。实验结果表明,此方法得到了比采用单独一种评价标准更好的识别效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号