首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
特征选择是生物信息领域中数据预处理阶段必不可少的步骤。传统特征选择算法忽视了特征之间的依赖相关性和冗余性,因此提出一种联合互信息的特征选择算法(JFRR)。该算法利用互信息计算特征之间的冗余值,并利用联合互信息分别计算已选特征集合、候选特征及类标签之间的相关性。将JFRR与其他6个特征选择算法在2个分类器上,使用9个不同基因数据集,进行分类准确率指标(Precision_micro和F1_micro)验证。实验结果表明,该算法能有效提高分类精度。  相似文献   

2.
作为一种基于一范式的特征选择方法,Lasso算法具有能够准确、迅速且稳定地选择出重要变量的特性.在面对物联网的数据集时,可以通过这一算法进行特征选择降低分类算法的计算消耗.分布式均分Lasso算法是一种结合Hadoop分布式计算与均分Lasso算法的融合算法,通过对特征集的拆分、对特征子集的并行化特征选择以及矩阵运算的并行化来提高算法运算效率,解决传统Lasso算法在高维度数据集以及小样本数据集上遇到的问题.通过对比实验可知这一算法的可行性、准确性与效率.  相似文献   

3.
机器学习中各类别样本数目不等是普遍存在且备受关注的不均衡问题。广泛用于特征选择的信息增益IG(information gain)算法,在这类不均衡问题中的表现却极少被研究。本文在讨论IG算法在不同均衡度数据集上性能的基础上,提出了一种新的解决不均衡问题的特征选择算法Im-IG(imbalanced information gain)。Im-IG通过提高小类分布在信息熵计算中的权重,优先选入有利于小类正确分离的特征。在提升整体分类性能的同时,着眼于提高小类的正确率。在多个不均衡数据集上的实验结果表明,Im-IG算法能较好地解决IG算法在不均衡问题中的不适应性,是一种有效的不均衡问题特征选择算法。  相似文献   

4.
为了提高AdaBoost集成学习算法的数据分类性能,提出基于合群度-隶属度噪声检测及动态特征选择的改进AdaBoost算法. 综合考虑待检测样本与邻居样本的相似度及与不同类别样本集的隶属关系,引入合群度和隶属度的概念,提出新的噪声检测方法. 在此基础上,为了更好地选择那些能够有效区分错分样本的特征,在传统过滤器特征选择方法的基础上提出通用的结合样本权重的动态特征选择方法,以提高AdaBoost算法针对错分样本的分类能力. 以支持向量机作为弱分类器,在8个典型数据集上分别从噪声检测、特征选择及现有方法比较3个方面进行实验. 结果表明,所提算法充分考虑了噪声样本和样本权重对AdaBoost分类结果的影响,相对于传统算法在分类性能上获得显著提升.  相似文献   

5.
基于随机森林的特征选择算法   总被引:2,自引:0,他引:2  
提出了一种基于随机森林的封装式特征选择算法RFFS,以随机森林算法为基本工具,以分类精度作为准则函数,采用序列后向选择和广义序列后向选择方法进行特征选择。在UCI数据集上的对比实验结果表明,RFFS算法在分类性能和特征子集选择两方面具有较好的性能。  相似文献   

6.
针对已标记数据与未标记数据分布不一致可能导致半监督分类器性能降低的不足,提出了一种基于特征映射的半监督文本分类算法.首先通过不同的特征选择方法,分别在训练集的已标记数据、未标记数据以及测试集数据中选取各自的特征集,并初始化特征的权值;在此基础之上,分别建立已标记数据与未标记数据、已标记数据与测试集数据、未标记数据与测试集数据之间的映射函数,并利用这3个特征映射函数重新计算特征的权重;最后利用期望最大比(expectation maximization,EM)算法进行半监督文本分类.在标准数据集上的实验结果表明:提出的算法是有效的.  相似文献   

7.
一种新的混合特征选择方法RRK   总被引:2,自引:1,他引:1  
提出一种新的基于包装方法和过滤器方法的混合特征选择算法RRK。该算法主要包括两个方面:①在特征预选阶段,提出一种基于ReliefF算法的特征加权算法NReliefF和降维算法DR,以实现特征加权并去掉不太重要的特征;②在特征选择阶段,把NReliefF算法和KNN算法结合起来,将预选特征作为输入,用分类正确率来选择最优特征。分别采用一个实际的乘员类型数据集和UCI上的imagine标准数据集进行了实验。实验结果表明,采用RRK后分类的效率和正确率都有明显提高。  相似文献   

8.
将一种新的特征选择算法(F-sco re)与多种机器学习算法相结合用于多分类问题中.使用十折交叉验证对比模型的分类效果,利用分类误差验证该方法的鲁棒性.实验结果表明,文中使用的新的基于F-score的特征选择方法与传统机器学习算法相结合具有很好的性能,能够使用比原始数据集更少特征并产生良好分类结果,尤其在与迭代随机森林方法相结合的情况下,能够显著提高模型分类精度.  相似文献   

9.
针对生物组学数据普遍存在的高维小样本和样本分布不平衡问题,提出基于粒子群优化分类模型选择算法.该算法中粒子编码由样本平衡模型、特征选择模型和分类模型及超参数构成,粒子种群以达到以生物组学数据最佳分类性能为目标,通过对粒子的速度和位置进行迭代更新,得到模型组合及超参数的最优解.在8组真实生物组学数据集上的实验结果表明,所提模型选择算法能够避免人为选择所带来的主观偏差,提高最佳分类性能和稳定性.  相似文献   

10.
基于Lasso特征选择的方法比较   总被引:1,自引:0,他引:1  
模型和特征选择是统计学中较为重要的问题之一。Lasso是一种基于一范式的特征选择方法,与现有特征选择方法比较,Lasso不仅能够准确地选择出重要变量,同时还具有特征选择的稳定性。文中对线性回归模型中变量选择的Lasso算法、基于线性模型的Lasso、Lars、Adaptive-lasso、elastic net等方法进行了比较,指出了它们间的联系,并通过对几个选自UCI数据集的数据进行对比验证,给出了变量选择方法的具体实现。  相似文献   

11.
特征降维是文本分类中的重要环节.在对常用的特征选择方法分析研究的基础上,提出一种将评估函数和Boosting算法相结合的特征选择方法,该算法采用基于Boosting算法的汉明损失作为最终特征子集的评估准则,进一步寻找具有关键作用的特征项,进而形成最终用于分类的特征子集.数据集上的实验结果表明,该方法有效地改善了分类性能.  相似文献   

12.
针对目前大多数基于信息论的线性累加特征选择算法的缺点和不足,并且考虑到已选特征的动态变化对特征选择的影响,本文提出了一种非线性的特征选择算法。实验结果证明,本文算法在平均准确率和最高准确率上都取得了很好的效果。为证明本文算法的优势,将本文算法与7个极具竞争性的特征选择算法在3个不同的分类器和8个真实数据集上进行了比较,实验结果表明,本文算法具有较强的分类优势。  相似文献   

13.
结合Filter和Wrapper方法的优点,提出一种基于集成遗传算法(FSEGA)的特征选择方法,用于从基因表达谱数据中选择特征基因。根据基因正负样本的分布关系定义信息指标过滤噪声基因,在递归特征消除过程中根据基因的集成权值生成候选基因子集,选择分类测试中具有最高AUC(接收者工作特征曲线下的面积)值的候选基因子集作为基因表达谱数据集的特征基因子集,将支持向量机(SVM)用于算法的适应度函数,研究FSEGA方法与分类器算法之间的关系,对5个肿瘤特征基因表达谱数据集进行基因选取实验。结果表明,采用提出的集成特征选取方法选取的特征基因集合含丰富类别信息,重复性较好,提高了肿瘤特征基因选取的稳定性和鲁棒性。  相似文献   

14.
特征选择是文本分类过程中极其重要的一个环节。本文提出了一种新的特征选择算法,该算法基于一个特征频度相对于其它特征频度的差值的总和衡量其相对贡献率的大小,从而进行特征选择。本文使用了基准数据集20-Newgroups,在朴素贝叶斯和支持向量机两个分类器上对该方法进行了验证。实验结果表明,与信息增益、互信息,几率比和DIA相关因子等四种流行的特征选择算法相比,该算法有效降低了文本的特征维数,提高了分类精度。  相似文献   

15.
为了解决基因选择困难问题,提出一种基于改进的K-means算法融合微粒群优化(IKPSO)的基因选择方法。该方法首先运用过滤法(Relief)对基因进行筛选,选择出对分类贡献大的基因构成备选基因子集;然后,利用改进的K-means算法将备选基因子集划分为一定数目的簇,并运用微粒群(PSO)对每一类簇进行搜索选择出相应类簇中的最优和次优基因构成最优特征基因子集;最后,训练支持向量机(SVM),并利用其分类的性能来评价获得的最优特征基因子集的质量。在两个典型的、公开的小样本的高维微阵列数据集上进行的实验,结果表明该IKPSO算法总体分类性能相对较好,并且与传统方法相比,IK-PSO分类性能得到显著的提高,证明了IK-PSO的可行性以及有效性。  相似文献   

16.
在相关性快速过滤特征选择算法(FCBF)基础上,通过最大相关系数的方式改进FCBF算法.首先,通过最大相关系数和对称不确定性度量准则,计算出每个特征与标签之间的相关度量值,并按照数值大小顺序进行排序;其次,通过最大相关系数和近似马尔可夫毯原理进行无关特征和冗余特征的筛选,最终选择出最优特征子集.在加利福尼亚大学欧文分校的机器学习库(UCI)的8个公开数据集中进行对比实验结果表明基于最大相关系数的特征选择算法(NFCBF)总体优于FCBF算法,它所选择出特征数比FCBF算法所选择特征数平均少了3.625个,分类准确率平均提高了0.075%.与互信息最大算法(MIM)、最少的绝对收缩和选择算法(Lasso)和岭算法(Ridge)等相比也具有明显的优势.  相似文献   

17.
针对EB(extreme binning)算法重复数据删除率低,磁盘I/O开销大的缺陷,提出基于多特征匹配和Bloom filter的重复数据删除算法DBMB(deduplication based on multi-feature matching and Bloom filter).将小文件聚合为局部性文件单元,作为一个整体进行去重处理,采用最大、最小以及中间数据块ID的多重相似性特征进行匹配,并基于Bloom filter优化磁盘数据块的查找和匹配过程.结果表明,DBMB算法能有效提升重复数据删除率,降低算法执行时间,同时减少处理小文件的内存开销,性能提升显著.  相似文献   

18.
基于LS-SVM与模糊补准则的特征选择方法   总被引:3,自引:3,他引:0  
针对传统特征选择算法采用单一度量的方式难以兼顾泛化性能和降维性能的不足,提出新的特征选择算法(least squares support vector machines and fuzzy supplementary criterion, LS-SVM-FSC)。通过核化的最小二乘支持向量机(least squares support vector machines, LS-SVM)对每个特征的样本进行分类,使用新的模糊隶属度函数获得每个样本对其所属类的模糊隶属度,使用模糊补准则选择具有最小冗余最大相关的特征子集。试验表明:与其他10个特征选择方法与7个隶属度决定方法相比,所提算法在9个数据集上都具有很高的分类准确率和很强的降维性能,且在高维数据集中的学习速度依然很快。  相似文献   

19.
针对传统支持向量机(SVM)在数据分类方面准确率识别较低的问题,提出了一种改进鲸鱼优化算法同步优化SVM的特征选择模型。首先,利用Levy飞行策略对鲸鱼优化算法的螺旋更新位置进行变异扰动,利用单纯形策略中的反射操作对种群中的精英个体进行反射点求解的改进,标准函数的测试结果证明其改进能有效提高算法的收敛速度和计算精度;其次,将SVM核参数和特征选择目标作为共同优化对象,在获得最优核参数的同时得到相对应的最优特征子集;最后,对UCI标准数据集和真实乳腺癌数据集进行特征选择仿真实验,在平均分类准确率、平均适应度值、适应度标准差和所选特征个数上进行评价。结果表明,本文算法在降低特征维度,实现数据分类上效果明显。在真实乳腺癌数据集上的分类精度与传统支持向量机相比提高了11.053%。  相似文献   

20.
为了有效处理海量、高维、稀疏的大数据,提高对数据的分类效率,提出一种基于L1准则稀疏性原理的在线学习算法(a sparse online learning algorithm for selection feature, SFSOL)。运用在线机器学习算法框架,对高维流式数据的特征进行新颖的“取整”处理,加大数据特征稀疏性的同时增强了阀值范围内部分特征的值,极大地提高了对稀疏数据分类的效果。利用公开的数据集对SFSOL算法的性能进行分析,并将该算法与其它3种稀疏在线学习算法的性能进行比较,试验结果表明提出的SFSOL算法对高维稀疏数据分类的准确性更高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号