首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
刘海  吴振强  彭长根  雷秀娟 《软件学报》2019,30(4):1094-1105
人类基因测序技术的快速发展,测序成本大幅降低,使基因数据得到广泛的应用,在全基因组的单核苷酸多态性与疾病关联研究中,单核苷酸多态性与患者的身份、表型和血缘关系等敏感信息相关联,单核苷酸多态性连锁不平衡容易导致患者的隐私信息泄露.为此,基于单核苷酸多态性连锁不平衡相关系数,提出矩阵差分隐私保护模型以实现基因数据和单核苷酸多态性连锁不平衡的隐私保护,同时确保基因数据具有一定的效用.该模型可以实现单核苷酸多态性连锁不平衡下全基因组关联研究中基因数据隐私与效用的权衡,并对单核苷酸多态性连锁不平衡下的基因隐私保护具有促进作用.  相似文献   

2.
基于Relief和SVM-RFE的组合式SNP特征选择   总被引:1,自引:0,他引:1  
针对SNP的全基因组关联分析面临SNP数据的高维小样本特性和遗传疾病病理的复杂性两大难点,将特征选择引入SNP全基因组关联分析中,提出基于Relief和SVM-RFE的组合式SNP特征选择方法。该方法包括两个阶段:Filter阶段,使用Relief算法剔除无关SNPs;Wrapper阶段,使用基于支持向量机的特征递归消减方法(SVM-RFE)筛选出与遗传疾病相关的关键SNPs。实验表明,该方法具有明显优于单独使用SVM-RFE算法的性能,优于单独使用Relief-SVM算法的分类准确率,为SNP全基因组关联分析提供了一种有效途径。  相似文献   

3.
王鹏 《计算机仿真》2021,(1):400-403,415
传统人机交互状态数据模拟过程数据视域特征采集不准确、数据模拟不连续,导致人机交互状态数据检测能力偏低,提出基于模糊关联聚类分析的人机交互状态数据模拟及挖掘方法.采用定量递归分析法完成数据模糊关联聚类.利用关联特征分布序列调度法,得到人机交互状态数据的规则训练集.在模糊扰动约束下,得到人机交互状态数据的聚类目标函数.采用...  相似文献   

4.
目前的聚类方法单纯从某个角度研究数据聚类问题,对基于云模式的混沌的物联网大数据聚类的考虑不足,聚类质量不高。为实现敏捷、智能、平稳的物联网大数据聚类,基于开展物联网事件的云模式通用描述模型、物联网事件混沌关联特征的云模式通用解析模型、基于云模式的物联网事件混沌关联特征提取算法、基于云模式混沌关联特征的物联网大数据关联挖掘研究,改进分解奇异值算法、网格耦合聚类算法、K-means算法、决策树学习法、分析主成分法、分层合并法等算法和分布概率函数,设计了一种基于事件混沌关联特征、敏捷、智能、平稳的物联网大数据聚类算法。最后,开展实验验证,并与传统算法进行性能对比分析。实验结果表明,相比传统算法,该算法聚类时间短、误差小,且敏捷性、智能性、动态演化性和平稳性高。因此,该算法实现了基于云模式的具有混沌关联特征的物联网事件大数据的有效聚类,具有较高的应用价值。  相似文献   

5.
一种基于群体智能的Web文档聚类算法   总被引:31,自引:0,他引:31  
将群体智能聚类模型运用于文档聚类,提出了一种基于群体智能的Web文档聚类算法,首先运用向量空间模型表示Web文档信息,采用常规方法如消除无用词和特征词条约简法则得到文本特征集,然后将文档的向量随机分布到一个平面上,运用基于群体智能的聚类方法进行文档聚类,最后从平面上采用递归算法收集聚类结果,为了改善算法的实用性,将原算法与k均值算法结合提出一种混合聚类算法,通过实验比较,结果表明基于群体智能的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的Web文档较完全而准确地聚成一类。  相似文献   

6.
为了提高海量高维小样本数据的聚类准确率和效率,提出一种基于递归文化基因和云计算分布式计算的高维大数据聚类系统。基于Spark分布式计算平台设计迭代的聚类系统,分为基于递归文化基因的特征归简处理和基于密度的聚类处理。前者将基因微阵列的聚类准确率结果作为主目标,特征数量作为次目标,递归地化简特征空间;后者基于犹豫模糊集理论设计基于密度的聚类算法,采用加权的犹豫模糊集相关系数度量数据之间的距离。基于人工合成数据集和临床实验数据集均进行仿真实验,结果表明该算法在聚类准确率、扩展性和时间效率上均实现了较好的效果。  相似文献   

7.
针对计算机辅助诊断(CAD)技术在乳腺癌疾病诊断准确率的优化问题,提出了一种基于随机森林模型下Gini指标特征加权的支持向量机方法(RFG-SVM)。该方法利用了随机森林模型下的Gini指数衡量各个特征对分类结果的重要性,构造具有加权特征向量核函数的支持向量机,并在乳腺癌疾病诊断方面加以应用。经理论分析和实验数据验证,相比于传统的支持向量机(SVM),该方法提升了分类预测的性能,其结果与最新的方法相比也具有一定的竞争力,而且在医疗诊断应用方面更具优势。  相似文献   

8.
针对传统随机森林随特征数增加计算消耗高的问题,提出了一种随机森林多特征置换算法。该算法对数据特征进行聚类,保持其他特征簇不变,逐一对同簇特征同时随机置换,得到全部特征簇的重要性得分及簇间排序。簇内特征按与分类信息的相关程度排序,引入相关性阈值选出重要特征,对剩余特征按先簇间、再簇内的规则进行排序。为了进一步比较该方法的有效性,基于[K]均值聚类、层次聚类、模糊[C]均值聚类算法,设计了三种随机森林多特征置换的特征选择算法。实验结果表明,与传统随机森林方法相比,新算法可选择较少特征时仍取得较高分类精度,且时间效率更高。  相似文献   

9.
郭娟  王娜 《信息与电脑》2022,(21):20-22
为提升就业信息推荐结果的精确率和召回率,引入随机森林算法开展对就业信息个性化推荐方法的设计研究。首先,利用随机森林算法挖掘就业信息,并对特征进行提取;其次,针对得到的就业信息和特征进行聚类,利用Apriori算法对就业信息进行关联分析;最后,针对不同求职者的就业需要,为其提供个性化智能推荐。实验结果表明,新的推荐方法在实际应用中推荐结果的精确率和召回率,均明显高于基于关联规则算法的推荐方法。  相似文献   

10.
在处理大数据集聚类初始化问题时,随机子样法是一种重要的数据约简操作.对随机取样的过程、特征及缺陷进行了分析,提出一种基于KD树子样的聚类初始化方法.该方法利用KD树将样本空间以递归方式细分成多个子空间,并分别在各子空间中随机取样形成KD树子样,有效避免了随机子样分布有偏的不足,使得子样中好的聚类初始点也能很好的表达整个...  相似文献   

11.
Feature selection is used for finding a feature subset that has the most discriminative information from the original feature set. In practice, since we do not know the classifier to be used after feature selection, it is desirable to find a feature subset that is universally effective for any classifier. Such a trial is called classifier-independent feature selection. In this study, we propose a novel classifier-independent feature selection method on the basis of the estimation of Bayes discrimination boundary. The experimental results on 12 real-world datasets showed the fundamental effectiveness of the proposed method.  相似文献   

12.
全基因组关联研究(Genome-wide association studies,GWAS)是指在基因水平上进行关联分析来寻找致病基因的方法. 传统的研究方法没有考虑到基因之间的相互作用,而且在复杂的因素情形下往往效率、准确率较低. 针对上述难题,本文提出一种基于互信息的结构性关键SNPs集合选取方法. 在互信息理论和仿真数据的基础之上,逆向构建SNPs互信息网络,给定互信息一个阈值范围,找到对应阈值下相关统计量进行比较分析,选取出合适的阈值. 根据选取的阈值,筛选出对网络结构有明显影响效果的“结构性关键SNPs”. 实验结果表明:本文采用的参数取值方法能够准确快速地筛选出对网络结构有明显影响效果的关键SNPs.  相似文献   

13.
Feature selection aims to choose a feature subset that has the most discriminative information from the original feature set. In practical cases, it is preferable to select a feature subset that is universally effective for any kind of classifier because there is no underlying information about a given dataset. Such a trial is called classifier-independent feature selection. We took notice of Novovičová et al.’s study as a classifier-independent feature selection method. However, the number of features have to be selected beforehand in their method. It is more desirable to determine a feature subset size automatically so as to remove only garbage features. In this study, we propose a divergence criterion on the basis of Novovičová et al.’s method.  相似文献   

14.
基于离散粒子群和支持向量机的特征基因选择算法   总被引:1,自引:0,他引:1  
基因芯片表达谱信息,为识别疾病相关基因及对癌症等疾病分型、诊断及病理学研究提供一新途径。在基因表达谱数据中选择特征基因可以提高疾病诊断、分类的准确率,并降低分类器的复杂度。本文研究了基于离散粒子群(binary particle swarm optimization,BPSO)和支持向量机(support vector machine,SVM)封装模式的BPSO-SVM特征基因选择方法,首先随机产生若干种群(特征子集),然后用BPSO算法优化随机产生的特征基因,并用SVM分类结果指导搜索,最后选出最佳适应度的特征基因子集以训练SVM。结果表明,基于BPSO-SVM的特征基因选择方法,的确是一种行之有效的特征基因选择方法。  相似文献   

15.
Most of the widely used pattern classification algorithms, such as Support Vector Machines (SVM), are sensitive to the presence of irrelevant or redundant features in the training data. Automatic feature selection algorithms aim at selecting a subset of features present in a given dataset so that the achieved accuracy of the following classifier can be maximized. Feature selection algorithms are generally categorized into two broad categories: algorithms that do not take the following classifier into account (the filter approaches), and algorithms that evaluate the following classifier for each considered feature subset (the wrapper approaches). Filter approaches are typically faster, but wrapper approaches deliver a higher performance. In this paper, we present the algorithm – Predictive Forward Selection – based on the widely used wrapper approach forward selection. Using ideas from meta-learning, the number of required evaluations of the target classifier is reduced by using experience knowledge gained during past feature selection runs on other datasets. We have evaluated our approach on 59 real-world datasets with a focus on SVM as the target classifier. We present comparisons with state-of-the-art wrapper and filter approaches as well as one embedded method for SVM according to accuracy and run-time. The results show that the presented method reaches the accuracy of traditional wrapper approaches requiring significantly less evaluations of the target algorithm. Moreover, our method achieves statistically significant better results than the filter approaches as well as the embedded method.  相似文献   

16.
TagSNP selection, which aims to select a small subset of informative single nucleotide polymorphisms (SNPs) to represent the whole large SNP set, has played an important role in current genomic research. Not only can this cut down the cost of genotyping by filtering a large number of redundant SNPs, but also it can accelerate the study of genome-wide disease association. In this paper, we propose a new hybrid method called CMDStagger that combines the ideas of the clustering and the graph algorithm, to find the minimum set of tagSNPs. The proposed algorithm uses the information of the linkage disequilibrium association and the haplotype diversity to reduce the information loss in tagSNP selection, and has no limit of block partition. The approach is tested on eight benchmark datasets from Hapmap and chromosome 5q31. Experimental results show that the algorithm in this paper can reduce the selection time and obtain less tagSNPs with high prediction accuracy. It indicates that this method has better performance than previous ones.  相似文献   

17.
Typical feature selection methods select a global feature subset that is applied over all regions of the sample space. In localized feature selection (LFS), each region of the sample space is associated with its own optimized feature subset. This allows the feature subset to adapt to local variations in the sample space. Feature subsets are selected such that within a localized region, within‐class distances are minimized and between‐class distances are maximized. LFS outperforms global feature selection methods. LFS is solved using a randomized rounding approach when weights of regions are fixed. Randomized rounding is a too time‐consuming algorithm. In this paper, we show that LFS has a closed‐form solution when weights of regions are fixed. Using this closed‐form solution can decrease the runtime of solving LFS substantially. Experimental results on real datasets confirm that the classification error rate of our proposed method and the randomized rounding‐based method are the same; the runtime of our proposed method is much better than that of the randomized rounding‐based method; and the classification error rate of our proposed method and the randomized rounding‐based method outperforms the state‐of‐the‐art feature selection methods.  相似文献   

18.
杨柳  李云 《计算机应用》2021,41(12):3521-3526
K-匿名算法通过对数据的泛化、隐藏等手段使得数据达到K-匿名条件,在隐藏特征的同时考虑数据的隐私性与分类性能,可以视为一种特殊的特征选择方法,即K-匿名特征选择。K-匿名特征选择方法结合K-匿名与特征选择的特点使用多个评价准则选出K-匿名特征子集。过滤式K-匿名特征选择方法难以搜索到所有满足K-匿名条件的候选特征子集,不能保证得到的特征子集的分类性能最优,而封装式特征选择方法计算成本很大,因此,结合过滤式特征排序与封装式特征选择的特点,改进已有方法中的前向搜索策略,设计了一种混合式K-匿名特征选择算法,使用分类性能作为评价准则选出分类性能最好的K-匿名特征子集。在多个公开数据集上进行实验,结果表明,所提算法在分类性能上可以超过现有算法并且信息损失更小。  相似文献   

19.
特征选择技术是机器学习和数据挖掘任务的关键预处理技术。传统贪婪式特征选择方法仅考虑本轮最佳特征,从而导致获取的特征子集仅为局部最优,无法获得最优或者近似最优的特征集合。进化搜索方式则有效地对特征空间进行搜索,然而不同的进化算法在搜索过程中存在自身的局限。本文吸取遗传算法(GA)和粒子群优化算法(PSO)的进化优势,以信息熵度量为评价,通过协同演化的方式获取最终特征子集。并提出适用于特征选择问题特有的比特率交叉算子和信息交换策略。实验结果显示,遗传算法和粒子群协同进化(GA-PSO)在进化搜索特征子集的能力和具体分类学习任务上都优于单独的演化搜索方式。进化搜索提供的组合判断能力优于贪婪式特征选择方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号