首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
提出了基于数据抽取器的知识发现模型。在模型中,将知识发现过程分成数据预处理、数据抽取、数据挖掘和结果分析四个阶段。该模型利用标准的SQL语言构造数据抽取器,为不同的学习算法准备数据,减少数据挖掘算法对数据库直接调用的次数,避免了直接对大型数据库的数据进行调用,使得对大型数据库进行快速数据挖掘成为可能。可以加快知识发现过程,提高数据挖掘效率,实现对于大型数据库的知识发现。最后设计了SQL-C4.5算法,该算法实现了利用数据抽取器为决策树算法C4.5抽取必要的统计数据,实现了C4.5决策树的构建。  相似文献   

2.
随着大数据时代的到来,数据信息呈几何倍数增长。传统的分类算法将面临着极大的挑战。为了提高分类算法的效率,提出了一种基于弱相关化特征子空间选择的离散化随机森林并行分类算法。该算法在数据预处理阶段对数据集中的连续属性进行离散化。在随机森林抽取特征子空间阶段,利用属性向量空间模型计算属性间的相关性,构造弱相关化特征子空间,使所构建的决策树之间相关性降低,从而提高随机森林的分类效果;并通过研究随机森林的并行化策略,结合MapReduce框架,改进并实现了随机森林模型构建过程的双重并行化,进一步改善了算法的计算效率。  相似文献   

3.
从海量数据中进行近似数据的检索是数据挖掘领域许多应用的关键。尤其近年来,数据的规模出现爆炸式增长,数据检索需面对海量数据和"维度灾难"的叠加考验,这使得传统最近邻算法效率降低,而近似最近邻算法发挥了越来越重要的作用。其中哈希算法以其在存储空间和计算时间上的优势受到了广泛关注。提出了一种基于随机森林的哈希算法。该算法通过构建随机森林,将原始空间的样本映射为海明空间的二进制哈希码,并在哈希空间上定义了顺序敏感的海明距离,以最大程度保持数据在原空间的近邻关系不变。由于随机森林中不同决策树所使用的特征空间和学习过程是独立的,可以以增量的方式灵活地确定哈希码的长度。此外基于随机森林的哈希编码算法天然适合并行部署,从而可以大大提高算法速度。最后,在MNIST和CIFAR-10数据集对所提算法进行了实验验证,结果表明了算法的有效性和出色性能。  相似文献   

4.
传统医保信息欺诈检测算法存在运行时间长、效率低的问题,无法保障患者医保信息安全,为了解决该问题,采用基于随机森林算法对失稳网络医保信息欺诈行为进行检测。通过混合抽样可抽取在失稳情况下的数据,并建立非平衡数据分类算法抽样机制;进行迭代随机森林数据计算,采用多数投票法构建基分类器,并以此为基础筛选异常数据;利用模型实现该算法对医保信息欺诈检测。设计对比实验,验证该算法有效性。通过实验结果可知,基于随机森林算法运行时间较短、效率高。  相似文献   

5.
深度森林是一种有效的机器学习方法,但在级联森林模块中,森林中子树的特征选择随机性较大,使用传统的平均值法可能导致森林的预测概率存在一定误差,从而影响整个算法性能.针对以上问题,提出了一种基于加权深度森林离群数据挖掘算法(Weight Deep Forest, WDF).首先,通过森林的预测概率定义权重因子μ,描述当前层森林准确率大小;其次,在级联森林模块的构建过程中,把权重因子μ作为级联层中每个森林的权重,从而降低森林中根节点特征的随机选择对算法性能的影响;根据数据样本分布的不同,通过计算其类密度重新定义了局部孤立因子α,描述数据离群程度大小;最后利用UCI数据集以及LAMOST光谱数据对算法进行验证,结果表明该算法与同类算法相比在离群点检测方面具有更高的挖掘质量.  相似文献   

6.
随着互联网的高速发展,电信市场竞争激烈,因此运用数据挖掘技术构建电信客户流失预测模型显得极为重要。基于Stacking集成算法,以梯度提升迭代(GBDT)、决策树、随机森林为基学习器,以逻辑回归模型为次学习器,构建了电信客户流失预测模型。通过与单一预测模型进行对比,Stacking集成模型有更好的预测效果,对电信客户流失预测具有重要意义。  相似文献   

7.
通过使用逻辑回归、决策树、朴素贝叶斯算法、反向传播、随机森林5种典型的机器学习算法对教育大数据进行分析和解读,从中提取隐含的潜在信息,经过数据分析、清洗、建模等步骤,构建多个模型,对比选取最优模型对在线教学学生学习成绩进行全面客观的预测.最终验证,逻辑回归算法是准确率最高的学生成绩预测算法,并且得到了相应的模型拟合表达式,将其运用到在线教学过程中学生成绩预测上,帮助教师提前干预,以提高教学效果,对教育科学决策有一定的参考价值.  相似文献   

8.
基于MapX的空间数据挖掘模型及其应用   总被引:7,自引:0,他引:7  
利用Mapx控件对GIs数据强大的操作与处理功能,将Mapx应用到空间数据挖掘中,构建了基于MapX的空间数据挖掘模型。通过该模型可以方便的对空间数据与非空间数据进行操作处理,以及空间对象之间的拓扑关系与距离信息等进行判定,从而解决了空间数据挖掘中数据整合与数据预处理的问题。概念泛化技术应用于数据预处理中,构建了概念层次树。关联规则算法有效应用于空间数据挖掘中.荻取了有用的知识。  相似文献   

9.
李升  宋舜宏 《计算机安全》2009,(11):23-25,28
入侵检测是数据挖掘的一个重要应用领域,目前基于数据挖掘的入侵检测方法很多,而基于随机森林的方法具有比较好的性能,但仍存在一些问题。通过分析网络入侵数据得到不同输入属性与分类结果的关系,提出了一种基于属性分组的随机森林算法,并应用该算法对KDD’99数据集分类。实验结果表明,该算法的训练速度和分类准确率都比原算法有较大提高。  相似文献   

10.
特征的相关和冗余,会直接影响随机森林随机抽取特征的质量,导致随机森林的收敛性减弱,降低随机森林模型的准确度、泛化能力及性能。基于此,提出一种融合近似马尔科夫毯的随机森林优化算法,该算法利用近似马尔科夫毯构建相似特征组,再从每个相似组中按比例抽取特征形成单棵决策树的特征子集,重复上述过程直至达到随机森林规模。该算法可以在保证随机森林特征的多样性前提下,利用近似马尔科夫毯消除特征间的相关性和冗余性,提高随机抽取特征的质量。通过在12组不同维度UCI数据集实验对比表明:融合近似马尔科夫毯的随机森林在一定程度上可以消除特征相关性和冗余性,提高模型的各项评价指标,泛化能力增强,更适用于高维数据。  相似文献   

11.
卢铮松  赵洁 《计算机工程》2009,35(20):81-82
对某供热公司累积的大量供热用户收费数据进行分析,通过构建数据仓库和利用数据概化方法建立供热用户数据挖掘模型,使用频繁项集方法产生关联规则,利用决策树算法得出交费时间特征,从而得出不同区域和类型用户的习惯交费时间段。对该数据挖掘模型进行评价,提出的4项收费决策建议在实际应用中取得良好效果。  相似文献   

12.
本文基于随机森林算法训练二手摩托车残值率评估模型。二手摩托车价格定价高度依赖线下评估,对车辆进行合理、准确的估值成为二手摩托车线上交易亟待解决的问题。通过数据挖掘收集二手摩托车成交数据,提取影响因素建立训练特征,基于随机森林算法训练二手摩托车残值率评估模型,模型MAE最低0.03136,R2最高0.9048,预测准确度较高,预测值与实际值相关性强。通过交叉验证法,将随机森林模型与其他预测模型进行了对比分析,该模型维持较高预测准确度的同时有良好的运行效率。  相似文献   

13.
基于R语言randomForest包的随机森林建模研究   总被引:1,自引:0,他引:1  
随机森林是重要的数据挖掘模型,常用于对样本进行分类预测。本文描述了一个实验,使用R语言random Forest包对一组人口普查数据建立随机森林模型,并对模型进行观察和优化,所建立的模型可对成年人的年薪进行分类预测。实验对研究随机森林建模有积极意义,实验中涉及的建模思路与模型优化方法可借鉴应用于其他情景的数据挖掘工作。  相似文献   

14.
在应届高中生生源不断下降、高等院校招生规模不断扩大、招生方式多元化不断发展、各院校之间招生竞争日趋激烈的条件下,利用海量招生异构数据,准确定位生源对象,做好前期招生宣传是各高等院校需要考虑的重要问题。结合云计算技术,利用并行化计算模型MapReduce和内存并行化计算框架Spark对高校招生历史数据进行分析,提出采用并行化随机森林预测高校招生策略模型,缩短了模型的预测时间、提高了模型的预测精度、增强了模型对大数据的处理能力。实验结果表明,并行化随机森林算法在不同数据集上的多方面性能均优于常用的决策树预测方法。  相似文献   

15.
针对传统煤自燃温度预测模型预测精度较差、基于支持向量机(SVM)的预测模型对参数的选取要求较高和基于神经网络的预测模型测试时易出现过拟合的问题,提出了一种基于随机森林算法的煤自燃温度预测模型。利用煤自燃程序升温实验选取O_2浓度、CO浓度、C_2H_4浓度、CO/ΔO_2比值、C_2H_4/C_2H_6比值作为煤自燃预警指标数据,并对指标数据进行处理,将数据分为学习集和测试集;对学习集抽样形成决策树并按决策树最优特征分裂形成随机森林;采用均方误差值和判定系数(R~2)优化随机森林算法的参数,进而构建随机森林模型;将测试集数据输入已训练好的随机森林模型,得到煤自燃温度预测结果。模型对比结果表明:与基于粒子群优化反向传播(PSO-BP)神经网络算法和基于SVM算法的煤自燃温度预测模型相比,随机森林测试阶段的R~2为0.869 7,PSO-BP测试阶段的R~2为0.783 6,SVM测试阶段的R~2为0.835 0,说明基于随机森林算法的煤自燃温度预测模型能够较为准确地对煤自燃温度进行预测,具有较强的鲁棒性和普适性,解决了基于PSO-BP神经网络算法的煤自燃温度预测模型和基于SVM算法的煤自燃温度预测模型容易出现过拟合的问题。  相似文献   

16.
面向非平衡训练集分类的随机森林算法优化   总被引:2,自引:0,他引:2  
数据挖掘是当今社会最活跃的研究方向之一,迄今为止数据挖掘技术已经广泛应用到各行各业中,然而在数据挖掘过程中往往会遇到很多非平衡训练集,采用传统的数据挖掘技术对非平衡训练集集进行处理不能得到理想的效果。主要是针对非平衡训练集,对数据进行NCL(Neighborhood Cleaning Rule)技术处理并结合随机森林(Random Forest)算法进行分类,试验结果表明,改进后的随机森林算法分类效果更好。  相似文献   

17.
由于多源异构数据集通常存在于多领域中,其特性导致数据的可利用率较低.为保证对各类数据的利用效果,研究基于随机森林的频繁项集智能挖掘算法.依据频繁项集特征,采用改进FP-tree算法挖掘频繁项集后,利用随机森林算法完成频繁项集分类;通过选取高精度子森林、聚类选择多样性子森林优化随机森林算法,改善随机森林算法运算时内存占用...  相似文献   

18.
师彦文  王宏杰 《计算机科学》2017,44(Z11):98-101
针对不平衡数据集的有效分类问题,提出一种结合代价敏感学习和随机森林算法的分类器。首先提出了一种新型不纯度度量,该度量不仅考虑了决策树的总代价,还考虑了同一节点对于不同样本的代价差异;其次,执行随机森林算法,对数据集作K次抽样,构建K个基础分类器;然后,基于提出的不纯度度量,通过分类回归树(CART)算法来构建决策树,从而形成决策树森林;最后,随机森林通过投票机制做出数据分类决策。在UCI数据库上进行实验,与传统随机森林和现有的代价敏感随机森林分类器相比,该分类器在分类精度、AUC面积和Kappa系数这3种性能度量上都具有良好的表现。  相似文献   

19.
在信息时代的快速发展背景下,大数据技术的广泛应用已经渗透各行各业,带来了海量的数据资源。然而,如何从这些数据中挖掘出有用的信息,为企业的决策提供支持,成为一个亟待解决的问题。文章旨在优化大数据平台的数据挖掘算法,并通过系统设计与技术实现,提升电力数据挖掘的准确性。采用算法优化方法包括模型压缩、参数调优和并行计算等,以提升深度学习模型的性能。基于此,文章提出构建高效、可扩展的数据挖掘平台。经过优化后,深度学习模型预测准确率在95%以上。此外,通过并行计算和分布式存储,数据挖掘平台的处理速度提高了2倍,能够处理更大规模的数据集。优化方法的应用显著提升了模型的性能和平台的处理能力,为大数据挖掘提供了技术支持。  相似文献   

20.
基于数据挖掘方法的风力涡轮机状态监测技术研究   总被引:1,自引:0,他引:1       下载免费PDF全文
目前风力涡轮机的故障模式预测成为了风力发电站发展的重要任务;提出了一种基于数据挖掘算法的涡轮机故障状态预测方法;这种方法包括3个主要的步骤:涡轮机状态抽象,算法训练,状态预测;首先利用先验知识将涡轮机的初始状态进行分类,选择建立预测模型的参数;为了降低计算难度,采用数据挖掘算法进行模型参数的选择;最终采用发电机转速、变速箱速度、温度枢纽、叶片螺距角这些参数进行预测模型的建立;建立预测模型的过程分为3个阶段:预测任意故障;预测系统的特殊故障;确定未知故障;通过对各种数据挖掘算法基于大量风力涡轮机数据的性能分析,选择了性能最优的随机森林算法模型;这种模型的预测准确率能够达到98%;同时还能够预测训练数据没有包含的故障类型;通过在实际风力涡轮机数据的验证,表明了这种模型的稳健性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号