首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
彭徵  王灵矫  郭华 《计算机科学》2018,45(12):148-152
文本分类是信息检索的核心技术。传统的文本分类系统由于单机的计算与存储能力有限,已经不适用于大数据时代。在Spark大数据平台上并行地运行算法对文本进行分类,以数据和任务的并行化来提高算法的效率具有现实性和紧迫性。文中提出了改进的不平衡数据随机森林算法,通过对训练样本的多数类进行欠取样且对少数类进行有放回取样从而形成新训练样本的方法来减少不平衡数据对随机森林的影响。实验结果表明,新算法在处理不平衡数据集上的少数类时提高了分类的正确率。  相似文献   

2.
一种基于局部随机子空间的分类集成算法   总被引:1,自引:0,他引:1  
分类器集成学习是当前机器学习研究领域的热点之一。然而,经典的采用完全随机的方法,对高维数据而言,难以保证子分类器的性能。 为此,文中提出一种基于局部随机子空间的分类集成算法,该算法首先采用特征选择方法得到一个有效的特征序列,进而将特征序列划分为几个区段并依据在各区段的采样比例进行随机采样,以此来改进子分类器性能和子分类器的多样性。在5个UCI数据集和5个基因数据集上进行实验,实验结果表明,文中方法优于单个分类器的分类性能,且在多数情况下优于经典的分类集成方法。  相似文献   

3.
近年来国内通信行业发展十分迅速,运营商通信网络的规模也随之壮大。在运营商通信网络中,数据中心机房是不可或缺的重要枢纽,承担着巨大的通信压力,数据中心机房的配电系统故障率和安全事故的风险也在不断提高,同时也导致机房运维难度和运维成本与日俱增。在现代电力系统中电力大数据的格局下,对高维海量数据进行深度挖掘,进而预测可能存在的告警,从而做到防患于未然,是一个值得研究的问题。针对电力大数据环境下高精度和实时性的负载预测展开了研究,提出了基于随机森林算法的负载预警,并基于Spark平台实现其并行化。结合某区域实际电力数据设计试验,进行模型训练和回归预测,通过试验证明,对同等的数据集,并行随机森林算法预测精度高于单机负载预测,为负载预测提供了一种新思路。  相似文献   

4.
针对用深度图进行人体姿势估计算法中随机森林训练模块的资源消耗大、训练时间长等问题,提出在小规模的集群服务器上用消息传递接口技术对随机森林算法进行并行化加速,并结合算法进行优化以降低存储消耗和占用带宽等,进一步提高训练速度。实验结果表明,在小型集群服务器上不到一天时间完成一次训练,速度相比原来提升约30倍,分类器的像素识别率超过80%,骨架节点的实际误差也足够小,经加速后可以及时进行多次训练,从而完成对训练参数的调整和测试。  相似文献   

5.
在非结构化数据挖掘结构模型,即发现特征子空间模型(DFSSM)的运行机制下,提出了一种新的文本分类算法——基于DFSSM 的文本分类(TCDFSSM) 算法。该算法在文本训练及分类阶段的基础上增加了自动反馈阶段,使得TCDFSSM具有自学习能力,并给出了文本分类过程反馈阈值的选取算法。结果表明,该算法分类效果良好,其自学习能力、适应性及鲁棒性更加优越。  相似文献   

6.
为了提升分类数据聚类集成的效果,提出了一种新的相关随机子空间聚类集成模型。该模型利用粗糙集理论将分类属性分解成相关和不相关子集,在相关属性子集上随机生成多个相关子空间并对分类数据进行聚类,通过集成多个较优且具差异性的聚类结果以获得最终的聚类划分。此外,将粗糙集约简概念应用于相关子空间属性数目的确定,有效地避免了参数对聚类结果的影响。UCI数据集实验表明,新模型的性能优于其他已有模型,说明了其有效性。  相似文献   

7.
杨丰瑞 《计算机应用研究》2020,37(9):2625-2628,2633
高维复杂数据处理是数据挖掘领域中的关键问题,针对现有特征选择分类算法存在的预测精确度失衡、整体分类效率低下等问题,提出了一种结合概率相关性和极限随机森林的特征选择分类算法(P-ERF)。该算法使用充分考虑特征之间相关性与P值结合的特征选择方式,避免了树节点分裂过程中造成的冗余性问题;并以随机树为基分类器、极限随机森林为整体框架,使P-ERF算法获得了更高的精准度和更好的泛化误差。实验结果表明,P-ERF算法相较于随机森林算法、极限随机森林算法,在数据集分类精度与整体性方面均得到良好的效果。  相似文献   

8.
针对传统随机森林随特征数增加计算消耗高的问题,提出了一种随机森林多特征置换算法.该算法对数据特征进行聚类,保持其他特征簇不变,逐一对同簇特征同时随机置换,得到全部特征簇的重要性得分及簇间排序.簇内特征按与分类信息的相关程度排序,引入相关性阈值选出重要特征,对剩余特征按先簇间、再簇内的规则进行排序.为了进一步比较该方法的...  相似文献   

9.
情感分类是目前自然语言处理领域的一个热点研究问题。该文关注情感分类中的半监督学习方法(即基于少量标注样本和大量未标注样本进行学习的方式),提出了一种新的基于动态随机特征子空间的半监督学习方法。首先,动态生成多个随机特征子空间;然后,基于协同训练(Co-training)在每个特征子空间中挑选置信度高的未标注样本;最后使用这些挑选出的样本更新训练模型。实验结果表明我们的方法明显优于传统的静态产生方式及其他现有的半监督方法。此外该文还探索了特征子空间的划分数目问题。  相似文献   

10.
针对随机森林算法中节点分裂方式单一且相似的问题,提出一种改进节点分裂方式的优化算法,将算法中独立的节点分裂方式ID3与CART进行重新组合,通过自适应参数选择得到新的分裂规则,用于最优属性的选择划分并应用于图像分类问题.首先以词袋模型为基础,加入空间金字塔结构来提取图像特征,并将其量化成视觉词汇,最后结合Spark平台用改进节点分裂方式的随机森林算法实现图像分类.实验结果表明,通过选择组合算法的最优系数,该算法有效提高图像分类准确率,并保证算法运行效率.  相似文献   

11.
构建个人信用风险评估模型的过程中, 特征工程很大程度上决定了评估器的性能, 传统的特征选择方法无法全面的考虑高维度指标对评估结果的影响, 且大多数研究在构建模型的过程中人为决定特征集大小, 导致随机性强、可信度低; 基于此, 提出基于传统风控指标优化XGBoost的随机森林模型(IV-XGBoostRF), 将传统风控指标IV与XGBoost相结合对原始特征集进行筛选, 建立较为完善的信用评估模型. 通过对比实验的结果显示改进后的随机森林模型准确度提高了0.90%, 且其他各项评估指标均优于传统信用评估模型, 证明了该组合特征选择方法的可行性, 有一定的应用价值.  相似文献   

12.
基于类别随机化的随机森林算法   总被引:1,自引:0,他引:1  
随机森林是数据挖掘和机器学习领域中一种常用的分类方法,已成为国内外学者共同关注的研究热点,并被广泛应用到各种实际问题中。传统的随机森林方法没有考虑类别个数对分类效果的影响,忽略了基分类器和类别之间的关联性,导致随机森林在处理多分类问题时的性能受到限制。为了更好地解决该问题,结合多分类问题的特点,提出一种基于类别随机化的随机森林算法(RCRF)。从类别的角度出发,在随机森林两种传统随机化的基础上增加类别随机化,为不同类别设计具有不同侧重点的基分类器。由于不同的分类器侧重区分的类别不同,所生成的决策树的结构也不同,这样既能够保证单个基分类器的性能,又可以进一步增大基分类器的多样性。为了验证所提算法的有效性,在UCI数据库中的21个数据集上将RCRF与其他算法进行了比较分析。实验从两个方面进行,一方面,通过准确率、F1-measure和Kappa系数3个指标来验证RCRF算法的性能;另一方面,利用κ-误差图从多样性角度对各种算法进行对比与分析。实验结果表明,所提算法能够有效提升集成模型的整体性能,在处理多分类问题时具有明显优势。  相似文献   

13.
在肌电信号的情感识别问题中,如何从高维特征中找出起关键作用的特征,一直是情感识别的难题。使用随机森林算法,并依照其对特征的评价准则,来计算肌电信号的126个初始特征在不同情感模式分类中的贡献度。依照每个特征的重要程度,优先组合贡献度大的特征并将其用于情感的分类。实验数据验证了该方法的有效性。  相似文献   

14.
随机森林(random forest,RF)算法虽应用广泛且分类准确度很高,但在面对特征维度高且不平衡的数据时,算法分类性能被严重削弱。高维数据通常包含大量的无关和冗余的特征,针对这个问题,结合权重排序和递归特征筛选的思想提出了一种改进的随机森林算法RW_RF(ReliefF&wrapper random forest)。首先引用ReliefF算法对数据集的所有特征按正负类分类能力赋予不同的权值,再递归地删除冗余的低权值特征,得到分类性能最佳的特征子集来构造随机森林;同时改进ReliefF的抽样方式,以减轻不平衡数据对分类模型的影响。实验结果显示,在特征数目很多的数据集中,改进算法的各评价指标均高于原算法,证明提出的RW_RF算法有效精简了特征子集,减轻了冗余特征对模型分类精度的影响,同时也证明了改进算法对处理不平衡数据起到了一定的效果。  相似文献   

15.
特征选择是文档分类中常见的预处理工作,通过对文档特征空间降维,可以提高文档的分类性能。针对多数特征选择算法不考虑特征词共现关系的问题,该文提出了一种利用关联特征来增强文档分类性能的方法,针对特征扩展后产生的高维向量空间设计了一种快速冗余特征去除和选择算法,以满足实际应用中对增强特征分类性能和执行效率的需要。实验采用朴素贝叶斯网作为分类器,从特征降维效果、分类性能以及算法执行效率等方面与其他算法进行了比较。  相似文献   

16.
基于Nguyen的粗糙集和布尔推理离散化方法提出一种支持向量机特征选择算法,引入粗糙集的一致度指标控制离散化过程的信息损失,从而删除不相关与冗余的属性,而保留支持向量机所需分类信息。实验结果表明,所提算法提高了SVM分类器的预测精度,缩短了训练时间。  相似文献   

17.
罗知林  陈挺  蔡皖东 《计算机科学》2014,41(4):62-64,74
转发(Retweet)是微博中一个重要的信息传播机制,用户可以将其关注者(Follower)的有趣微博转发到自身平台,分享给他的粉丝(Fan),快速地实现微博信息的传播。主要对微博转发预测进行了研究,首先提取了重要特征,比如用户间的微网络结构、权重比率、用户个人信息等,以研究用户微博转发行为,然后基于以上特征提出了一个随机森林微博转发预测算法(RFMR)。实验结果表明,RFMR算法优于其他分类算法,可以有效地用来预测微博转发。  相似文献   

18.
沈晶磊  虞慧群  范贵生  郭健美 《计算机科学》2017,44(11):164-167, 186
如今随着推荐系统势头的加强,如何对用户行为进行快速而准确的预测变得愈加重要。通过分析网上社区帖子的点赞和点踩数据,实现了基于随机森林的推荐系统。该系统将实际问题转化为分类模型,并实现了数据处理、特征提取和参数调整。同时,该系统还对用户浏览帖子后是否产生交互行为进行了预测。最后,通过实验仿真并利用F1值对实验结果进行评估。实验结果证明了系统的有效性和效率。  相似文献   

19.
刘兆赓  李占山  王丽  王涛  于海鸿 《软件学报》2020,31(5):1511-1524
特征选择作为一种重要的数据预处理方法,不但能解决维数灾难问题,还能提高算法的泛化能力.各种各样的方法已被应用于解决特征选择问题,其中,基于演化计算的特征选择算法近年来获得了更多的关注并取得了一些成功.近期研究结果表明,森林优化特征选择算法具有更好的分类性能及维度缩减能力.然而,初始化阶段的随机性、全局播种阶段的人为参数设定,影响了该算法的准确率和维度缩减能力;同时,算法本身存在着高维数据处理能力不足的本质缺陷.从信息增益率的角度给出了一种初始化策略,在全局播种阶段,借用模拟退火控温函数的思想自动生成参数,并结合维度缩减率给出了适应度函数;同时,针对形成的优质森林采取贪心算法,形成一种特征选择算法EFSFOA(enhanced feature selection using forest optimization algorithm).此外,在面对高维数据的处理时,采用集成特征选择的方案形成了一个适用于EFSFOA的集成特征选择框架,使其能够有效处理高维数据特征选择问题.通过设计对比实验,验证了EFSFOA与FSFOA相比在分类准确率和维度缩减率上均有明显的提高,高维数据处理能力更是提高...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号