首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
Abstract: In this work an entropic filtering algorithm (EFA) for feature selection is described, as a workable method to generate a relevant subset of genes. This is a fast feature selection method based on finding feature subsets that jointly maximize the normalized multivariate conditional entropy with respect to the classification ability of tumours. The EFA is tested in combination with several machine learning algorithms on five public domain microarray data sets. It is found that this combination offers subsets yielding similar or much better accuracies than using the full set of genes. The solutions obtained are of comparable quality to previous results, but they are obtained in a maximum of half an hour computing time and use a very low number of genes.  相似文献   

2.
在对现有分类方法和文本倾向性分类的复杂性进行分析的基础上,提出了一种基于类别空间模型的文本倾向性分类方法。该方法采用组合特征提取方法,基于词语对类别的倾向性进行分类。实验结果表明该方法有效地提高了倾向性分类的精度和速度。  相似文献   

3.
肿瘤诊断中的特征基因提取   总被引:1,自引:0,他引:1       下载免费PDF全文
基于基因表达谱的特征基因提取方法已经成为当今研究肿瘤分子诊断的热点,但由于基因表达谱数据存在维数过高、样本量很小以及噪音很大等特点,使得肿瘤特征基因选择成为一件有挑战性的工作。提出了一种新的寻找特征基因的方法。首先基于区间间隔或覆盖比的方法来初步选出一些特征基因,而后删掉其中的冗余基因,达到以最少的基因数得到更高的分类准确率的目的。实验采用了3种肿瘤样本集来验证新算法的有效性。针对这3个样本集,只要2或3个特征基因就能得到100%的5-折交叉验证识别准确率。与其他肿瘤分类方法相比,显示了它的优越性。  相似文献   

4.
基于最大类可分离性新颜色空间的肤色检测   总被引:1,自引:0,他引:1  
针对肤色检测, 基于Bhattacharyya距离构建了4个新空间模型,并通过计算新空间模型中各特征的Bhattacharyya距离测度,选择其最具鉴别力的分量构成用于肤色分割的联合模型。通过实验比较了肤色、非肤色两类样本在常用的彩色空间和4个新构建空间中的Bhattacharyya距离度量以及肤色正检率,结果表明,基于最大类可分离性判据构建的新彩色空间具有更好的分类性能。 在实际彩色图片上的肤色分割实验也证明了提出的新空间模型和联合模型的有效性。  相似文献   

5.
为了有效消除声发射信号中的噪声,将广义S变换滤波方法应用于声发射信号去噪,分别采用广义S变换中的充零法、基于带通滤波器设计滤波算子法以及时频滤波法进行滤波比较,针对信号的不同时频特性设计了相应的时频滤波算子。结果表明,基于S变换的三种时频滤波法对声发射信号的去噪均有较好的效果,克服了传统滤波方法滤波因子不能随时间、频率变化而变化的缺陷。其中时频滤波法在高信噪比和低信噪比情况下都能更好地去除噪声,可以满足信号处理的要求。  相似文献   

6.
针对中国地鼠基因表达谱数据维数高和样本小的特点,提出一种基于支持向量机(SVM)的分类特征基因选取方法。该方法利用改进的Fisher判别(FDR)基因特征计分准则剔除分类无关基因,提出由空间距离和功能距离组成的新距离作为相似性度量的标准进行冗余基因的剔除,采用SVM作为分类器检验特征基因的分类性能。实验结果表明,该方法有效地剔除了分类无关基因和冗余基因,选取的特征基因满足对中国地鼠正确分类的最小基因数。  相似文献   

7.
建立病变组织分类模型的关键在于找出一组能准确区分样本类别的特征基因。糙集理论中的属性依赖度分析方法能对目标数据进行有效分析。基于属性间的依赖关系和属性对决策的影响存在这样的关系,即属性依赖度越大,属性就越重要,对决策划分的影响就越大,提出了一种属性最大依赖度(maximum dependency of attributes based on rough sets,MDA-RS)算法,并将其应用于特征基因选取。首先用启发式K-均值聚类算法对基因进行聚类分析得到类数为k的基因子集;然后用MDA-RS选出每类的  相似文献   

8.
Typical feature selection methods select a global feature subset that is applied over all regions of the sample space. In localized feature selection (LFS), each region of the sample space is associated with its own optimized feature subset. This allows the feature subset to adapt to local variations in the sample space. Feature subsets are selected such that within a localized region, within‐class distances are minimized and between‐class distances are maximized. LFS outperforms global feature selection methods. LFS is solved using a randomized rounding approach when weights of regions are fixed. Randomized rounding is a too time‐consuming algorithm. In this paper, we show that LFS has a closed‐form solution when weights of regions are fixed. Using this closed‐form solution can decrease the runtime of solving LFS substantially. Experimental results on real datasets confirm that the classification error rate of our proposed method and the randomized rounding‐based method are the same; the runtime of our proposed method is much better than that of the randomized rounding‐based method; and the classification error rate of our proposed method and the randomized rounding‐based method outperforms the state‐of‐the‐art feature selection methods.  相似文献   

9.
对肿瘤基因表达谱进行分析,从而有效区分正常样本与肿瘤样本的关键是:准确找出能够决定样本类别的最少特征基因,并用一个性能较好的分类器进行分类预测。针对该问题,用修订的特征记分准则(RFSC)去除分类无关基因;对两两冗余法进行改进,提出强相关树法用于冗余基因的去除;对粗糙支持向量机(RSVM)改进,提出近似等价粗糙支持向量机(AE-RSVM)对样本集进行分类测试。以肿瘤样本集为例进行测试,实验结果表明了提出方法的可行性和有效性。  相似文献   

10.
基于遗传算法的结肠癌基因选择与样本分类   总被引:2,自引:1,他引:1       下载免费PDF全文
提出了一种基于两轮遗传算法的用于结肠癌微阵列数据基因选择与样本分类的新方法。该方法先根据基因的Bhattacharyya距离指标过滤大部分与分类不相关的基因,而后使用结合了遗传算法和CFS(Correlation-based Feature Selection)的GA/CFS方法选择优秀基因子集,并存档记录这些子集。根据存档子集中基因被选择的频率选择进一步搜索的候选子集,最后以结合了遗传算法和SVM的GA/SVM从候选基因子集中选择分类特征子集。把这种GA/CFS-GA/SVM方法应用到结肠癌微阵列数据,实验结果及与文献的比较表明了该方法效果良好。  相似文献   

11.
文本特征选择是文本分类和信息提取的关键技术。针对文本分类中特征向量的高维稀疏问题,提出了非负矩阵分解和概念语义空间结合的特征抽取方法,对特征矩阵分解算法加入非负限制能够给出概念语义向量面向主题的解释,较好体现文本的局部特征。采用非负矩阵分解对全局和局部语义空间进行降维处理提高了体征提取效率,对不同概念语义空间中文本分类效果比对分析。实验结果表明基于非负矩阵分解的局部概念语义空间中文本分类精度较高。  相似文献   

12.
为了提高情感文本分类的准确率,对英文情感文本不同的预处理方式进行了研究,同时提出了一种改进的卡方统计量(CHI)特征提取算法.卡方统计量是一种有效的特征选择方法,但分析发现存在负相关现象和倾向于选择低频特征词的问题.为了克服不足之处,在考虑到词频、集中度和分散度等因素的基础上,考虑文本的长短不均衡和特征词分布,对词频进行归一化,提出了一种改进的卡方统计量特征提取算法.利用经典朴素贝叶斯和支持向量机分类算法在均衡语料、非均衡语料和混合长短文本语料上实验,实验结果表明:新的方法提高了情感文本分类的准确率.  相似文献   

13.
属性选择通常作为一个主要的预处理步骤,在机器学习和数据挖掘领域有着广泛的应用。选择出能够表征数据集分形特征的属性子集,对研究数据集的分形规律具有重要的价值。根据数据集的分形特征,引入了密度分析方法,指出了当前基于分形维数的属性选择方法的不足,提出了一种基于分形和邻接空间密度变化的属性选择方法。为了分析实验结果的有效性,利用SVM分类算法和K-fold交叉验证相结合的方法对3个数据集属性选择前后的分类性能进行了测试。实验证明该方法在属性选择方面有较好的性能,能够得到较优的属性子集。  相似文献   

14.
为了获得更好的文本分类准确率和更快的执行效率, 研究了多种Web文本的特征提取方法, 通过对互信息(MI)、文档频率(DF)、信息增益(IG)和χ2统计(CHI)算法的研究, 利用其各自的优势互补, 提出一种基于主成分分析(PCA)的多重组合特征提取算法(PCA-CFEA)。通过PCA算法的正交变换快速地将文本特征空间降维, 再通过多重组合特征提取算法在降维后的特征空间中快速提取出更具代表性的特征项, 过滤掉一些代表性较弱的特征项, 最后使用SVM分类器对文本进行分类。实验结果表明, PCA-CFEA能有效地提高文本分类的正确率和执行效率。  相似文献   

15.
基于基因表达谱提出了一种选取特征基因并使用多类支持向量机(MSVM)进行肿瘤亚型识别的方法。就小圆蓝细胞瘤(SRBCT)的亚型识别问题,以组间和组内平方和比率(BSS/WSS)作为衡量基因分类重要性的标准,据此选择基因构造若干MSVM模型,由分类错误率确定了含25个基因的特征集合,并利用基于相关距离的冗余分析方法去除冗余,得到15个特征基因。基于该特征子集构造的MSVM在测试集上取得100%的预测准确率。与相关文献的比较表明了该方法的有效性和可行性。  相似文献   

16.
一种基于微阵列数据的集成分类方法*   总被引:1,自引:0,他引:1  
针对现有的微阵列数据集成分类方法分类精度不高这一问题,提出了一种Bagging-PCA-SVM方法。该方法首先采用Bootstrap技术对训练样本集重复取样,构成大量训练样本子集,然后在每个子集上进行特征选择和主成分分析以消除噪声基因与冗余基因;最后利用支持向量机作为分类器,采用多数投票的方法预测样本的类属。通过三个数据集进行了测试,测试结果表明了该方法的有效性和可行性。  相似文献   

17.
陈亮  汤显峰 《计算机应用》2022,42(6):1852-1861
针对传统正余弦算法(SCA)处理复杂优化问题时存在易得局部最优和收敛慢的不足,提出一种基于惯性权重与柯西混沌变异的改进正余弦算法IWCCSCA。首先设计了基于指数函数的曲线自适应振幅调整因子更新方法,用于均衡个体的全局搜索与局部开发能力;接着设计了自适应递减惯性权重更新机制,以改进个体位置更新方式,加快算法收敛;还设计了基于精英柯西混沌变异的个体扰动机制,以提升种群多样性,避免局部最优。利用8种基准函数寻优测试验证了IWCCSCA能够有效提升收敛速度和寻优精度。此外,将IWCCSCA应用于数据原始特征集中的特征子集选取问题,提出了基于IWCCSCA的特征选择算法IWCCSCA-FS。通过将正余弦函数的连续优化转换为特征选择的二进制优化,实现了个体位置与特征子集间的映射关系,以同步考虑特征选择量与分类准确率的适应度函数来评估候选解质量。UCI基准数据集的测试结果表明,IWCCSCA-FS算法可以有效选择最优特征子集,降低特征维度,提高数据分类准确率。  相似文献   

18.
ICA是应用于盲源信号分离的一种统计方法。利用ICA对基因微阵列表达谱数据进行分解获得由基因模型谱和对应系数构成的线性谱模型,并在此基础上进行基因分类。由于基于ICA的一个模型谱并不能完整地代表一个具有生物意义的类别,并且模型谱之间不具正交性,在此线性模型下不能有效的表示基因数据,为此提出基于ICA的模式表达空间的概念,并在该模式空间中重新构造了基因的数据表达形式,并利用此表达形式进行基因分类。实验结果表明,该分类方法比线性谱模型下的基因分类具有更高的正确率。  相似文献   

19.
喻德旷  杨谊 《计算机应用》2018,38(2):421-426
基因数据小样本、高维数、高冗余的特点常导致特征基因选择出现"维数灾难"和"过拟合",针对这一问题,提出一种特征基因提取算法——互信息最值过滤原则-惯性权重粒子群优化(MIMVFC-IWPSO)算法。首先,借鉴过滤法的思路,通过计算互信息指标,依据互信息最值过滤原则(MIMVFC)获得特征基因候选子集(FGCS),缩小分类操作的范围,提高特征基因被覆盖的概率;接着,对粒子群优化(PSO)算法进行改进,引入惯性权重实现自调节可变惯性权重粒子群优化(IWPSO)算法,使得在算法迭代初期有着快速的全局优化能力,而在算法后期具有较强的局部搜索能力;最后,运用IWPSO从FGCS中提取核心信息基因子集(CFGS),并基于CFGS对样本进行肿瘤与正常组织的分类。采用3个公开的肿瘤基因表达谱数据进行实验,MIMVFC正确分类率优于信噪比(SNR)、t-检验和信息增益(IG)方法,与卡方统计值(Chi-Square)方法接近,而MIMVFC还能利用IWPSO进一步优化结果。基于相同的FGCS,与目前效果较好的二进制粒子群优化与防治基因算法(BPSO-CGA)相比,IWPSO的运算耗时有所增加,但所获得的CFGS规模减小,准确率提高;而与经典PSO相比,所获得的CFGS规模减小、运算耗时减少、准确率提高。实验结果表明MIMVFC-IWPSO具有较好的综合分类性能,能有效提高准确率和效率,可用于多种肿瘤的特征基因选择,辅助指导分子生物学实验设计和验证。  相似文献   

20.
研究了有关癌症分类的基因选择问题。开发了集成的基于平滑剪切绝对偏差罚分的SVM—特征选择方法,直接最小化分类器的性能。为解决优化问题,应用了突函数差异算法(difference of convex functionsal-gorithms,DCA)这一进行非突连续优化的通用框架,致使连续线性规划算法有限收敛。真实数据集上的先验实验表明算法达到了预想目标:在压缩大量属性的同时,保持了较小分类差错。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号