首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于Relief和SVM-RFE的组合式SNP特征选择   总被引:1,自引:0,他引:1  
针对SNP的全基因组关联分析面临SNP数据的高维小样本特性和遗传疾病病理的复杂性两大难点,将特征选择引入SNP全基因组关联分析中,提出基于Relief和SVM-RFE的组合式SNP特征选择方法。该方法包括两个阶段:Filter阶段,使用Relief算法剔除无关SNPs;Wrapper阶段,使用基于支持向量机的特征递归消减方法(SVM-RFE)筛选出与遗传疾病相关的关键SNPs。实验表明,该方法具有明显优于单独使用SVM-RFE算法的性能,优于单独使用Relief-SVM算法的分类准确率,为SNP全基因组关联分析提供了一种有效途径。  相似文献   

2.
SNPs are positions of the DNA sequences where the differences among individuals are embedded. The knowledge of such SNPs is crucial for disease association studies, but even if the number of such positions is low (about 1% of the entire sequence), the cost to extract the complete information is actually very high. Recent studies have shown that DNA sequences are structured into blocks of positions, that are conserved during evolution, where there is strong correlation among values (alleles) of different loci. To reduce the cost of extracting SNPs information, the block structure of the DNA has suggested to limit the process to a subset of SNPs, the so-called Tag SNPs, that are able to maintain the most of the information contained in the whole sequence. In this paper, we apply a technique for feature selection based on integer programming to the problem of Tag SNP selection. Moreover, to test the quality of our approach, we consider also the problem of SNPs reconstruction, i.e. the problem of deriving unknown SNPs from the value of Tag SNPs and propose two reconstruction methods, one based on a majority vote and the other on a machine learning approach. We test our algorithm on two public data sets of different nature, providing results that are, when comparable, in line with the related literature. One of the interesting aspects of the proposed method is to be found in its capability to deal simultaneously with very large SNPs sets, and, in addition, to provide highly informative reconstruction rules in the form of logic formulas.  相似文献   

3.
为了提高支持向量机求解大规模问题的训练速度,提出了一种新的工作集选择策略--预备工作集策略:在SMO中,利用可行方向策略提取最大违反对的同时,从核缓存cache中提取违反KKT条件程度最大的一系列样本组成预备工作集,为此后历次SMO迭代优化提供工作集.该方法提高了核缓存的命中率,减少了工作集选择的代价.理论分析和实验结果表明,预备工作集策略能够很好地胜任待优化的工作集,加快了支持向量机求解大规模问题的训练速度.  相似文献   

4.
全基因组关联研究(Genome-wide association studies,GWAS)是指在基因水平上进行关联分析来寻找致病基因的方法. 传统的研究方法没有考虑到基因之间的相互作用,而且在复杂的因素情形下往往效率、准确率较低. 针对上述难题,本文提出一种基于互信息的结构性关键SNPs集合选取方法. 在互信息理论和仿真数据的基础之上,逆向构建SNPs互信息网络,给定互信息一个阈值范围,找到对应阈值下相关统计量进行比较分析,选取出合适的阈值. 根据选取的阈值,筛选出对网络结构有明显影响效果的“结构性关键SNPs”. 实验结果表明:本文采用的参数取值方法能够准确快速地筛选出对网络结构有明显影响效果的关键SNPs.  相似文献   

5.
在数据挖掘中,由于数据集中含有大量的冗余和不相关的特征,因此特征选择是一个重要的预处理过程。提出了一个基于混合互信息和粒子群算法的过滤式-封装式的多目标特征选择方法(HMIPSO)。根据粒子的pbest距离上次更新的迭代次数,提出了自适应突变策略去扰动种群,避免种群陷入局部最优。同时基于帕累托前沿面和外部文档提出了一个新的集合概念。结合互信息和新的集合知识提出了一个局部搜索策略,使得帕累托前沿面中的粒子可以删除不相关和冗余的特征,然后通过精英策略更新学习前和学习后的帕累托前沿面。最后将提出的算法和另外4种多目标算法在15个UCI数据集上进行了测试,实验结果表明提出的算法能够更好地降低特征个数和分类错误率。  相似文献   

6.
针对基于三维视觉指导的运动想象脑机接口多通道冗余信息较多、分类准确率差的问题,提出了一种基于小波包分解(WPD)—共空间滤波(CSP)—自适应差分进化(ADE)的模式脑电信号特征提取与选择分类方法。首先,对采集的多通道运动想象脑电信号进行WPD变化,划分出精细的子频带;然后,分别将WPD变换后的每个子空间作为CSP的输入,得到对应的特征向量;最后,使用ADE算法对特征向量进行选择,选择出用于分类的最佳特征子集。采用WPD-CSP-ADE模式进行特征提取与选择,较经典的WPD-CSP方法在分类正确率、特征个数方面有着更好的表现。同时,所提算法分类性能明显优于遗传算法、粒子群算法。实验结果表明,WPD-CSP-ADE方法能够有效地提高分类正确率,同时减少了用于分类的特征个数。  相似文献   

7.
针对协同过滤推荐算法中存在的可扩展性问题,在原有基于频率(frequency-based,FB)和排名(rank-based,RB)的信息核提取方法的基础上,提出了改进的提取信息核方法IFB(IFrequency-based)和IRB(IRank-based,IRB),在寻找最相似邻居环节中提出了一个优化集的概念,在优化集上为每个用户寻找最相似的邻居。从实验结果看出,通过该方法能够得到更加准确的推荐结果,有效降低了绝对平均误差(MAE),同时具有更高的准确率和召回率,推荐效果更优。  相似文献   

8.
9.
赵婧  魏彬 《计算机工程与科学》2016,38(11):2328-2334
研究复杂疾病与SNP之间的相关性是生物信息学最为重要的任务之一,然而基因分型的巨大花费却限制了其发展及应用。因此,选择部分有代表性的SNP(即标签SNP选择问题)进行研究,从而降低研究所需费用就显得十分必要。近年来,已有一些算法被提出用于解决该问题,但是大多数方法在预测精度及标签选择数目等指标方面仍未能达到实际应用的需求。据此,设计了一种前向矩阵法用于标签SNP的选择,并用改进的PSO算法对非标签SNP进行预测。最后通过大量数据集上的实验表明了算法与常用方法相比可选择更少的标签,同时可获得更高的预测精度,即在性能方面有了明显的提升,更适合于标签SNP选择问题的研究。  相似文献   

10.
针对非参数核密度估计在前期学习阶段信息冗余和计算量大,在后期背景更新阶段自适应性差需手动调整阈值和检测结果出现阴影等问题,提出一种基于局部时空域模型的核密度估计目标检测方法。在前期训练学习阶段采用K均值聚类选择关键帧,从而避免信息冗余和计算量大问题;在后期背景更新阶段,构建一种局部时空域模型,在时间域通过历史帧信息自适应调整时间域窗口大小,在空间域利用颜色和LBP描述的纹理特征消除部分阴影问题。在复杂场景下的实验结果表明,该算法在实时性和检测准确率方面有效得到提高。  相似文献   

11.
支持向量机(SVM)作为一种有效的模式分类方法,当数据集规模较大时,学习时间长、泛化能力下降;而核向量机(CVM)分类算法的时间复杂度与样本规模无关,但随着支持向量的增加,CVM的学习时间会快速增长。针对以上问题,提出一种CVM与SVM相结合的二阶段快速学习算法(CCS),首先使用CVM初步训练样本,基于最小包围球(MEB)筛选出潜在核向量,构建新的最有可能影响问题解的训练样本,以此降低样本规模,并使用标记方法快速提取新样本;然后对得到的新训练样本使用SVM进行训练。通过在6个数据集上与SVM和CVM进行比较,实验结果表明,CCS在保持分类精度的同时训练时间平均减少了30%以上,是一种有效的大规模分类学习算法。  相似文献   

12.
兴趣泛洪攻击(interest flooding attack,IFA)和合谋兴趣泛洪攻击(conspiracy interest flooding attack,CIFA)是命名数据网络(named data networking,NDN)面临的典型的安全威胁.针对现有检测方法的检测特征单一因此不能有效地辨别攻击种类以及检测率不够高等问题,提出一种基于关联规则算法和决策树算法联合检测NDN中攻击的方法.首先,通过提取NDN路由节点的内容缓存(content cache,CS)中的数据信息挖掘CS中新的检测特征“缓存增长率”,实验发现“CS数据包增长率”是辨别IFA还是CIFA的有利依据.其次,使用关联规则算法将新的检测特征与待定兴趣表(pending interest table,PIT)中多个检测特征联合,寻找各个特征之间的关联性并将其作为决策树的输入.最后,使用决策树算法检测攻击.该方法使用决策树算法和关联规则算法联合检测NDN中的攻击,不仅避免了单一特征检测攻击造成的误判并且丰富了决策树的分类属性.分析仿真结果表明该检测方法可以精确地区分并检测IFA和CIFA并且提高了检测率.  相似文献   

13.
基于SPN模型的物流采购决策   总被引:1,自引:1,他引:0  
在电子商务物流管理系统(ELMS)中,针对采购决策存在的供应商选择和订单选择问题,根据ELMS采购流程和多属性决策方法得到供应商选择调度算法,利用基于随机Petri网的多服务器多队列模型实现订单选择策略。性能分析结果表明,该方法能有效减少ELMS系统的响应时间,并提高其吞吐率。  相似文献   

14.
一个基于决策粗糙集理论的信息过滤模型   总被引:3,自引:0,他引:3       下载免费PDF全文
介绍了决策粗糙集理论,提出了一个基于决策粗糙集理论的通用信息过滤模型,并通过对电子邮件进行过滤,与传统的基于文本内容的信息过滤方法——朴素贝叶斯方法进行了比较,比较结果证明该文提出的基于决策粗糙集理论的信息过滤模型可以降低误判率,有较高的正确率。  相似文献   

15.
全基因组关联研究是研究复杂疾病和性状遗传效应的一种有效手段。现有关联分析主要用的是边缘统计检验的方法,但未考虑特征间相关性、阈值选取不稳定等问题。该文以心脑血管疾病为研究对象,提出了一种基于多步筛选法的全基因组关联分析新方法。该方法可以简要概括为以下 两步:首先利用 Gini 指数做特征初始筛选,获得一个候选单核苷酸多态性子集,再用基于随机森林的递归聚类消除法从单核苷酸多态性子集中发现关联单核苷酸多态性。实验结果表明,多步筛选法比单步特征选择的效果更好,基于 Gini 指数的基于随机森林的递归聚类消除法筛选的单核苷酸多态性子集与疾病的关联性更高。  相似文献   

16.
A single nucleotide polymorphism (SNP), as the most common form of genetic variation, has been widely studied to help analyze the possible association between diseases and genomes. To gain more information, SNPs on a single chromosome are usually studied together, which constitute a haplotype. Gaining haplotypes from biological experiments is usually very costly and time-consuming, which causes people to develop efficient methods to determine haplotypes from the computational angle. Many problems and algorithms about haplotypes have been proposed to reduce the cost of studies of disease association. In general, four categories of problems are widely researched: the haplotype assembly problem, the haplotype inference problem, the haplotype block partition problem, and the haplotype tagging SNP selection problem. The former two problems have been well reviewed by many researchers, whereas the latter two have not been comprehensively surveyed to our knowledge. In this paper, we try to make a detailed introduction to the four problems, especially the latter two.  相似文献   

17.
The Intelligent Water Drop (IWD) algorithm is a recent stochastic swarm-based method that is useful for solving combinatorial and function optimization problems. In this paper, we investigate the effectiveness of the selection method in the solution construction phase of the IWD algorithm. Instead of the fitness proportionate selection method in the original IWD algorithm, two ranking-based selection methods, namely linear ranking and exponential ranking, are proposed. Both ranking-based selection methods aim to solve the identified limitations of the fitness proportionate selection method as well as to enable the IWD algorithm to escape from local optima and ensure its search diversity. To evaluate the usefulness of the proposed ranking-based selection methods, a series of experiments pertaining to three combinatorial optimization problems, i.e., rough set feature subset selection, multiple knapsack and travelling salesman problems, is conducted. The results demonstrate that the exponential ranking selection method is able to preserve the search diversity, therefore improving the performance of the IWD algorithm.  相似文献   

18.
一种改进人工蜂群的K-medoids聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-medoids聚类算法初始聚类中心选择较敏感、聚类效率和精度较低、全局搜索能力较差以及传统蜂群算法初始蜂群和搜索步长随机选取等缺点,提出了一种基于粒子和最大最小距离法初始化蜂群和随着迭代次数增加动态调整搜索步长的人工蜂群算法,将改进的人工蜂群进一步优化K-medoids,以提高聚类算法的性能。实验结果表明:该算法降低了对噪声的敏感程度,具有较高的效率和准确率,较强的稳定性。  相似文献   

19.
Non-negative Matrix Factorization (NMF)method of blind spectral unmixing can obtain the spectrum and abundance of the endmember by synchronous optimization,without supervising the selection of endmember.Therefore,NMF has been developed rapidly in the application of hyperspectral unmixing.However,traditional blind spectral unmixing NMF method tends to fall into the local optimum and it is difficult to obtain a stable optimal solution.In this paper,we propose an improved Non-negative Matrix Factorization (NMF)method based on Spatial\|Spectal Preprocessing for spectral unmixing of hyperspectral data (SSPP-NMF).First,the SSPP algorithm is used to combine spatial and spectral information to select reasonable and effective dataset.Then,the NMF algorithm is used to unmix this dataset to obtain the final optimized endmember spectrum.Finally,the Non\|Negative Least Squares (NNLS)method is used to obtain the final abundance of the whole study area.The validity and applicability of the proposed method were analyzed based on a set of synthetic hyperspectral data and real hyperspectral images;and then the results were compared with that from three algorithms including the existing NMF algorithm,MVC\|NMF algorithm and ATGP-NMF algorithm.Results show that compared with ATGP-NMF and MVC-NMF,the SSPP algorithm can effectively suppress the influence of noise,significantly improve the performance of the NMF method of blind spectral unmixing algorithm.  相似文献   

20.
维度灾难是机器学习任务中的常见问题,特征选择算法能够从原始数据集中选取出最优特征子集,降低特征维度.提出一种混合式特征选择算法,首先用卡方检验和过滤式方法选择重要特征子集并进行标准化缩放,再用序列后向选择算法(SBS)与支持向量机(SVM)包裹的SBS-SVM算法选择最优特征子集,实现分类性能最大化并有效降低特征数量.实验中,将包裹阶段的SBS-SVM与其他两种算法在3个经典数据集上进行测试,结果表明,SBS-SVM算法在分类性能和泛化能力方面均具有较好的表现.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号