首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
标题分类是对一个标题性语句进行分类,通常这个标题是不超过20个字的短文本,内容精炼概括性强。针对标题文本的特征稀疏性和含义不确定性,提出了一种融合随机森林与贝叶斯多项式的标题分类算法。该算法把贝叶斯多项式模型引入到随机森林底层分类器构建过程中,同时利用随机森林附带的OOB数据提出了一种基于二维权重分布的投票机制。最后在图书馆真实书目数据上进行实验,针对分类性能与当前基于LDA主题扩展的SVM算法进行对比。实验结果表明在一定条件下,该方法性能稳定,表现较佳。  相似文献   

2.
随机森林是一种有效的集成学习算法,被广泛应用于模式识别中。为了得到更高的预测精度,需要对参数进行优化。提出了一种基于袋外数据估计的分类误差,利用改进的网格搜索算法对随机森林算法中的决策树数量和候选分裂属性数进行参数优化的随机森林算法。仿真结果表明,利用该方法优化得到的参数都能够使随机森林的分类效果得到一定程度的提高。  相似文献   

3.
随机搜索法是对无约束力问题寻找最优解的一种算法.随机森林是一种集成算法,为了提高随机森林分类的准确率,需要对参数进行调参.随机森林可以通过网格搜索算法或学习曲线算法选取到合适的参数,但是训练时间过长,消耗资源过大.本文通过对随机搜索算法改进,利用改进的随机搜索算法优化随机森林调参.经过实验验证,改进的算法选取到的参数保...  相似文献   

4.
提出一种改进随机森林算法(SP-RF).通过建立数据抽样索引表和随机特征索引表来实现随机森林算法在Spark上的并行化;通过计算随机森林算法中每个决策树的AUC值来给分类能力不同的决策树分配权重;提高随机森林算法在投票环节的分类精度.实验结果表明改进后的随机森林算法分类精度平均提高5%,运行时间平均减少25%以上.  相似文献   

5.
提出一种改进随机森林算法(SP-RF).通过建立数据抽样索引表和随机特征索引表来实现随机森林算法在Spark上的并行化;通过计算随机森林算法中每个决策树的AUC值来给分类能力不同的决策树分配权重;提高随机森林算法在投票环节的分类精度.实验结果表明改进后的随机森林算法分类精度平均提高5%,运行时间平均减少25%以上.  相似文献   

6.
针对传统随机森林算法在维度高、噪声大的文本分类上出现计算复杂度高和分类效果较差的问题,提出一种基于隐狄利克雷分配(LDA)主题模型的改进随机森林算法。该算法利用LDA主题模型对原始文本建立模型,将原始文本映射到主题空间上,保证了文本主旨与原始文本的一致性,同时也大大降低了文本噪声对分类的影响;并且针对随机森林中决策树特征的随机选择方法,提出在决策树生成过程中,利用对称不确定计算各个特征之间的相关性,从而可以降低不同决策树之间的关联度。最终在主题空间上利用改进的随机森林算法对文本进行分类。经过实验证明,该算法在文本分类上具有良好的优越性。  相似文献   

7.
在优化分类技术的研究中,文本特征化后通常具有高维性和不平衡性的特点,导致传统的分类算法准确率不高的问题.针对文本分类器的性能容易受到核函数和参数的影响的问题,为提高文本分类器的准确性.采用支持向量机(SVM)的理论在文本分类技术同时将根据优化的粒子群算法(PSO)引入SVM分类算法中进行优化文本分类器的参数,将分类器的准确率作为PSO算法适应度函数通过粒子移动操作找出最佳参数并用SVM算法进行分类.在文本数据集上的仿真结果表明,与传统的算法相比,经PSO算法优化后的SVM文本分类器的准确性更高,PSO算法是一种有效的优化方法,能广泛应用于文本分类问题.  相似文献   

8.
为解决投诉举报文本分类困难这一问题,提出一种基于改进果蝇优化算法的文本分类方法.针对果蝇优化算法存在的搜索半径相对固定、种群多样性低等问题,对算法进行改进;采用支持向量机建立文本分类模型,利用改进后的果蝇优化算法对支持向量机的参数进行动态寻优,以此提高模型的分类精度.实验结果表明,该文本分类方法的准确率和召回率相比于文...  相似文献   

9.
《微型机与应用》2016,(11):45-47
随着互联网的发展,电子商务已经成为一种新的商业活动模式。商品在电子商务平台的排名,直接决定了产品的销量。如何优化产品的排名,是所有电子商务公司关注的问题。从商品的文本信息角度出发,利用机器学习方法来研究文本信息与产品排名之间的关系。从特征提取方法和分类算法两个角度进行了比较研究。首先比较了TFIDF和词频法(WF)两种特征提取方法,进一步又比较了朴素贝叶斯、支持向量机(SVM)以及随机森林(RF)三个分类算法。研究结果表明,在该文的数据集上进行文本分类排名分析,词频法结合随机森林取得了最好的分类效果。  相似文献   

10.
与集成学习相比,针对单个分类器不能获得相对较高而稳定的准确率的问题,提出一种分类模型.该模型可集成多个随机森林,并以带阈值的多数投票法作为结合方法;模型实现主要分为建立集成分类模型、实例初步预测和结合分析三个层次.MapReduce编程方式实现的分类模型以P2P流量识别为例,分别与单个随机森林和集成其他算法进行对比,实验表明提出模型能获得更好的P2P流量识别综合分类性能,该模型也为二类型分类提供了一种可行的参考方法.  相似文献   

11.
师彦文  王宏杰 《计算机科学》2017,44(Z11):98-101
针对不平衡数据集的有效分类问题,提出一种结合代价敏感学习和随机森林算法的分类器。首先提出了一种新型不纯度度量,该度量不仅考虑了决策树的总代价,还考虑了同一节点对于不同样本的代价差异;其次,执行随机森林算法,对数据集作K次抽样,构建K个基础分类器;然后,基于提出的不纯度度量,通过分类回归树(CART)算法来构建决策树,从而形成决策树森林;最后,随机森林通过投票机制做出数据分类决策。在UCI数据库上进行实验,与传统随机森林和现有的代价敏感随机森林分类器相比,该分类器在分类精度、AUC面积和Kappa系数这3种性能度量上都具有良好的表现。  相似文献   

12.
杨丰瑞 《计算机应用研究》2020,37(9):2625-2628,2633
高维复杂数据处理是数据挖掘领域中的关键问题,针对现有特征选择分类算法存在的预测精确度失衡、整体分类效率低下等问题,提出了一种结合概率相关性和极限随机森林的特征选择分类算法(P-ERF)。该算法使用充分考虑特征之间相关性与P值结合的特征选择方式,避免了树节点分裂过程中造成的冗余性问题;并以随机树为基分类器、极限随机森林为整体框架,使P-ERF算法获得了更高的精准度和更好的泛化误差。实验结果表明,P-ERF算法相较于随机森林算法、极限随机森林算法,在数据集分类精度与整体性方面均得到良好的效果。  相似文献   

13.
针对数据不平衡带来的少数类样本识别率低的问题,提出通过加权策略对过采样和随机森林进行改进的算法,从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)降低数据不平衡度,每个少数类样本根据其相对于剩余样本的欧氏距离分配权重,使每个样本合成不同数量的新样本。算法改进阶段利用Kappa系数评价随机森林中决策树训练后的分类效果,并赋予每棵树相应的权重,使分类能力更好的树在投票阶段有更大的投票权,提高随机森林算法对不平衡数据的整体分类性能。在KEEL数据集上的实验表明,与未改进算法相比,改进后的算法对少数类样本分类准确率和整体样本分类性能有所提升。  相似文献   

14.
传统的随机森林房价评估算法存在着大量参数组合计算问题,参数的优劣对算法准确度影响很大。针对此问题,结合随机森林和模拟退火算法提出一种融合模拟退火的随机森林房价评估算法。首先,通过10次10折交叉验证法对参数进行敏感性测试,选择出对随机森林算法敏感的参数;然后结合模拟退火算法对敏感的参数迭代寻优,通过与网格搜索算法、随机搜索算法进行对比分析发现,在参数组合计算过程中,模拟退火算法在运行时间和算法准确率方面更优,弥补了网格搜索算法耗时过长和随机搜索算法低准确率的缺陷;最后,将融合模拟退火的随机森林算法应用于房价评估问题,构成新的房价评估算法。将新算法与传统随机森林房价评估算法进行了对比实验分析,结果表明,融合模拟退火的随机森林房价评估算法误差值减少,拟合优度值增加,评估的准确度得到了显著提升。  相似文献   

15.
针对现有欠采样处理算法中存在样本缺少代表性、分类性能差等问题,提出了一种基于聚类欠采样的加权随机森林算法(weighted random forest algorithm based on clustering under-sampling,CUS-WRF)。利用K-means算法对多数类样本聚类,引入欧氏距离作为欠采样时分配样本个数的权重依据,使采样后的多数类样本与少数类样本形成一个平衡的样本集,以CART决策树为基分类器,加权随机森林为整体框架,同时将测试样本的准确率作为每棵树的权值来完成对结果的最终投票,有效提高了整体分类性能。选择八组KEEL数据集进行实验,结果表明,与其余四种基于随机森林的不平衡数据处理算法相比,CUS-WRF算法的分类性能及稳定性更具优势。  相似文献   

16.
随机森林(RF)具有抗噪能力强,预测准确率高,能够处理高维数据等优点,因此在机器学习领域得到了广泛的应用。模型决策树(MDT)是一种加速的决策树算法,虽然能够提高决策树算法的训练效率,但是随着非纯伪叶结点规模的增大,模型决策树的精度也在下降。针对上述问题,提出了一种模型决策森林算法(MDF)以提高模型决策树的分类精度。MDF算法将MDT作为基分类器,利用随机森林的思想,生成多棵模型决策树。算法首先通过旋转矩阵得到不同的样本子集,然后在这些样本子集上训练出多棵不同的模型决策树,再将这些树通过投票的方式进行集成,最后根据得到的模型决策森林给出分类结果。在标准数据集上的实验结果表明,提出的模型决策森林在分类精度上明显优于模型决策树算法,并且MDF在树的数量较少时也能取到不错的精度,避免了因树的数量增加时间复杂度增高的问题。  相似文献   

17.
软件缺陷集成预测模型研究   总被引:1,自引:0,他引:1  
利用单一分类器构造的缺陷预测模型已经遇到了性能瓶颈, 而集成分类器相比单一分类器往往具有显著的性能优势。以构造高效的集成缺陷预测模型为出发点, 比较了七种不同类型集成分类器的算法和特点。在14个基准数据集上的实验显示, 部分集成预测模型的性能优于基于朴素贝叶斯的单一预测模型。其中, 基于投票的集成分类框架具有最优的预测性能以及统计学意义上的性能优势显著性, 随机森林算法次之。Stacking集成框架也具有较强的泛化能力。  相似文献   

18.
针对传统由粗糙到精准的人脸外形搜索方法,其每一次外形搜索需要在整个外形搜索空间进行,提出一种基于分类的外形搜索方法。该方法始于一个包含不同人脸形状的外形搜索空间,首先利用基于相关性的特征选择方法对随机森林分类器进行优化,利用训练的随机森林分类器将外形搜索空间分为若干个外形搜索子空间;然后根据输入样本和随机森林分类器确定与当前外形最接近的外形搜索子空间,并计算对应子空间的中心和对应样本的后验概率分布,方便后续阶段更好地进行外形搜索;最后采用级联回归进行人脸特征点定位。在300-W数据集上的实验结果表明,此方法不仅有效降低了外形搜索的时间,同时在无约束环境中具有良好的鲁棒性。  相似文献   

19.
针对传统贝叶斯分类算法无法满足复杂网络文本过滤需求,提出一种多词 贝叶斯分类算法(Multi Word-Bayes,MWB)。该算法一方面引入了特征权重(Term Frequency-Inverse Document Frequency,TF-IDF)的计算思想,优化了传统贝叶斯分类算法只考虑词频不考虑文本间关系的问题;另一方面将词与词间的关系作为文本分类的重要参考项,克服了传统贝叶斯分类算法在分类器训练上对语义分析的忽视。实验结果表明,MWB在垃圾文本过滤上具有更好的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号