首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
面向非平衡训练集分类的随机森林算法优化   总被引:2,自引:0,他引:2  
数据挖掘是当今社会最活跃的研究方向之一,迄今为止数据挖掘技术已经广泛应用到各行各业中,然而在数据挖掘过程中往往会遇到很多非平衡训练集,采用传统的数据挖掘技术对非平衡训练集集进行处理不能得到理想的效果。主要是针对非平衡训练集,对数据进行NCL(Neighborhood Cleaning Rule)技术处理并结合随机森林(Random Forest)算法进行分类,试验结果表明,改进后的随机森林算法分类效果更好。  相似文献   

2.
针对区块链上存在的欺诈账户给交易带来的安全问题,提出了基于机器学习的欺诈账户的检测及特征分析模型,将以太坊上真实的链上数据进行特征提取后作为模型的数据来源,通过对不同的机器学习方法进行比较得到最优模型并进行迭代训练以获得最佳的预测模型,同时引入SHAP值对数据特征进行分析。实验结果表明,基于XGBoost的欺诈账户检测模型在RMSE、MAE和R2三组指标上达到了0.205、0.084和0.833,优于其余的对比模型,并结合SHAP值识别出预测欺诈账户的关键因素,为区块链的交易安全提供决策参考。  相似文献   

3.
非平衡数据集分类问题研究进展   总被引:3,自引:0,他引:3  
非平衡数据集广泛存在于现实世界中,其分类问题已经成为目前数据挖掘领域中的一个研究热点.文章综述了非平衡数据集分类问题的评价方法及其常用分类算法,分析了目前存在的主要困难,并指出需进一步解决的几个问题.  相似文献   

4.
针对随机森林和SMOTE组合算法在处理不平衡数据集上存在数据集边缘化分布以及计算复杂度大等问题,提出了基于SMOTE的改进算法TSMOTE(triangle SMOTE)和MDSMOTE(Max Distance SMOTE),其核心思想是将新样本的产生限制在一定区域,使得样本集分布趋于中心化,用更少的正类样本点人为构造样本,从而达到限制样本区域、降低算法复杂度的目的。在6种不平衡数据集上的大量实验表明,改进算法与传统算法相比,算法消耗时间大幅减少,取得更高的G-mean值、F-value值和AUC值。  相似文献   

5.
针对行业欺诈行为形式多样、操作隐蔽,且数据分布极端不平衡等问题,研究采用ADASYN(adaptive synthetic sampling approach for imbalanced learning)算法将分类决策边界向困难的实例进行自适应移动实现数据扩增,以解决不平衡数据造成的过拟合问题。采用基于随机森林的序列向前搜索策略算法筛选出最优特征子集对欺诈进行检测,降低ADASYN算法添加噪声数据对分类边界确定的影响,构建欺诈检测模型,并使用LIME对模型检测结果作出局部解释,提高模型的使用价值。实验表明,该模型可以较好地克服传统欺诈检测模型对多数类样本误分类的缺陷,有助于提高行业对交易欺诈行为识别的效率。同时,通过LIME对模型检测出的随机样本进行有效解析,便于决策者对算法模型的检测结果作出实证分析,起到明显的预警及决策参考价值。  相似文献   

6.
网络在线广告中以套取广告费为目的的点击欺诈已经严重影响了网络广告的稳定发展。从FDMA2012竞赛提供的欺诈发布商检测的真实数据集出发,针对冗余特征会降低训练效率以及不平衡数据会使决策边界发生偏倚的问题,提出了一种基于集成特征选择的网络在线广告点击欺诈检测方法。采用Bagging方法和合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)相结合的方法将多数的正常点击广告发布商样本与少数的欺诈点击广告发布商样本构造为多个袋装子集,利用基于相关性度量的特征选择算法对每个袋装子集中筛选出特征子集,设置阈值得到特征合集,利用随机森林算法构建点击欺诈检测模型。实验结果表明该方法能够有效识别出实施欺诈点击行为的非法发布商,达到网络在线广告中点击欺诈检测的要求。  相似文献   

7.
李鑫  郭汉  张欣  胡方强  帅仁俊 《计算机科学》2018,45(Z6):371-374
网络在线广告中以套取广告费为目的的点击欺诈检测是机器学习应用的重要内容之一。支持向量机(Support Vector Machine,SVM)是一种优秀的解决二分类和回归问题的机器学习算法,但应用于网络在线广告中的欺诈点击检测时,由于数据集的极端非平衡性,算法性能受到极大的限制。从FDMA2012竞赛欺诈发布商检测的真实数据集出发,在详细研究与对比了3种非平衡数据处理方法后,选取最佳的混合采样方法对原始数据进行处理,再将其应用于SVM分类器。实验结果表明,所提方法能够有效识别实施欺诈点击行为的非法发布商,准确度达到95%左右,满足了网络在线广告中点击欺诈检测的要求。  相似文献   

8.
非平衡数据集分类方法探讨   总被引:2,自引:1,他引:1  
由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质、影响非平衡数据集分类的因素、非平衡数据集分类通常采用的方法、常用的评估标准以及该问题中存在的问题与挑战。  相似文献   

9.
针对网页欺诈检测中特征的高维、冗余问题,提出一个基于信息增益和遗传算法的改进特征选择算法(IFS-BIGGA)。首先,通过信息增益(IG)给出特征重要性排序,设定动态阈值减少冗余特征;其次,改进遗传算法(GA)中染色体编码函数和选择算子,并结合随机森林(RF)的受试者工作特征曲线面积(AUC)作为适应度函数,选择高辨识度特征;最后,增加实验迭代次数避免算法随机性,产生最佳最小的特征集合(OMFS)。实验验证表明,应用IFS-BIGGA生成的OMFS与高维特征集合相比,尽管RF下的AUC减小了2%,但是真阳性率(TPR)提高了21%,并且特征维度减少了92%;同时多个常用分类器的平均检测时间减少了83%;另外,IFS-BIGGA的F1值相比传统的遗传算法(TGA)和帝国主义竞争算法(ICA)分别提高了4.2%和3.5%。实验结果表明,IFS-BIGGA可以进行高效特征降维,在实际的网页检测工程中,有效减少计算代价,提高检测效率。  相似文献   

10.
现实世界中存在着非平衡数据集,即数据集中的一类样本数量远大于另一类。而少数类样本的识别通常是人们首要关心的,将少数类样本误分为多数类要比将多数类样本误分为少数类付出更高的代价。传统的机器学习算法可能会产生偏向多数类的结果,因而对于少数类而言,预测的效果会很差。在对目前国内外非平衡数据集研究现状深入分析的基础上,针对非平衡数据集数据复杂度研究和失衡解决方法研究两个方向相对孤立及缺乏系统性的缺陷,提出了一种非平衡数据集整体解决框架,以满足日益迫切的应用需求。  相似文献   

11.
为了方便油藏数据特征的分析和石油的勘探开发过程,本文利用Spark并行计算框架分析油藏数据,并通过数据挖掘算法分析油藏属性之间的潜在关系,对油藏的不同层段进行了分类和预测.本文的主要工作包括:搭建Spark分布式集群和数据处理、分析平台,Spark是流行的大数据并行计算框架,相对传统的一些分析方法和工具,可以实现快速、准确的数据挖掘任务;根据油藏数据的特点建立多维异常检测函数,并新增渗孔比判别属性Pr;在处理不平衡数据时,针对逻辑回归分类提出交叉召回训练模型,并优化代价函数,针对决策树,提出KR-SMOTE对小类别样本进行过采样扩充,这两种方法都可以有效处理数据不平衡问题,提高分类精度.  相似文献   

12.
随着我国老龄化和高龄化趋势的加速,以及家庭养老功能弱化、社会养老服务体系不健全等问题,养老事业面临诸多挑战。为了更好地为老年人提供居住安排建议,同时为养老事业管理部门提供精准的决策支持,对CHARLS问卷中将近2万名老年人的数据进行了分析,力图发现影响老年人居住偏好的主要因素。同时,也尝试利用大数据和数据挖掘方法,从个人层面对老年人居住偏好进行预测,并针对类不平衡的情况下随机森林特征选择算法进行了改进。研究结果表明:基于老年人的特征数据可以很好地预测其居住偏好,为养老事业的精准化决策提供一种依据。  相似文献   

13.
近年来微博中出现一些炒作账户采用违规手段开展网络公关活动,严重扰乱了正常的互联网秩序,然而传统炒作账户识别方法主要依靠人工分析,其效率低下且不适用于对海量账户进行识别。针对上述问题,提出一种改进的微博炒作账户识别方法,从账户状态、历史微博以及账户邻居3个方面对炒作账户的特征进行分析,构建炒作账户特征集,并利用数据挖掘中的朴素贝叶斯、支持向量机及K最近邻分类等算法对正常账户和炒作账户进行自动分类。实验结果表明,该方法能有效识别微博中的炒作账户,准确率高达95%。  相似文献   

14.
目前,我国电网企业对于识别停电投诉风险,开展用户停电敏感程度分析的研究工作还处在起步阶段.为了有效地分析停电用户的敏感程度,提出了一种基于改进随机森林算法的停电敏感用户分类算法.首先,对原始数据进行清洗、特征选择等预处理;接着,采用SMOTE算法增加少数敏感用户样本数据量,解决数据分布不均匀问题;然后,以Fisher比作为特征的重要性度量,按比例随机采样选取具有代表性的特征构成子特征空间;最后,利用随机森林算法识别停电敏感用户.通过在真实停电数据上的实验,验证了提出的方法不仅具有较好的准确性和时间性能,而且可以有效处理高维、冗余特征的数据.  相似文献   

15.
不平衡情感分类中的特征选择方法研究   总被引:1,自引:0,他引:1  
随着网络的发展,情感分类任务受到广大研究人员的密切关注。针对情感分类中的不平衡数据分布和高维特征问题,该文比较研究了四种经典的特征选择方法在不平衡情感分类中的应用。同时,该文提出了三种不同的特征选择模式并实验比较了这三种模式在分类和降维性能方面的表现。实验结果表明在不平衡数据的情感分类任务中,特征选择方法能够在不损失分类效果的前提下显著降低特征向量的维度。此外,特征选择方法中信息增益(IG)结合“先随机欠采样后特征选择”模式能够取得最佳的分类效果。  相似文献   

16.
本文提出了一种基于MPU9250微处理器的人体运动识别的方法. 用户在佩戴手环的情况下进行各类运动, 手环即可自动采集并存储用户在运动过程中产生的加速度数据. 分析这些数据可以判别人体运动的类别. 通过手环内嵌的加速度传感器采集运动者在X, Y, Z 3个方向上的加速度, 经过滤波算法过滤后, 分别在时域和频域两个方面对数据进行分析, 再经过特征工程提取34个相关特征, 使用特征选择算法选取主要的16个特征, 减小算法复杂度. 实验比较了支持向量机(SVM), 决策树(decision tree)和随机森林(random forest) 3种方法, 对走路、跑步、羽毛球正手挥拍、打乒乓球、划船5种运动模式进行分类, 结果表明随机森林准确率最佳, 可达到97%以上.  相似文献   

17.
刘枭  王晓国 《计算机科学》2018,45(7):122-128, 134
近几年,经由电信网络实施的诈骗频发,给银行用户带来了巨大的经济损失。现有的银行欺诈检测方法通常先提取账户交易的RFM(Recency,Frequency,Monetary Value)特征,然后采用有监督的方法训练分类器来识别诈骗交易。但是,这类方法没有考虑交易网络的结构特征。电信诈骗具有明显的集团特性,在交易网络中会呈现出特定的结构特征,使用交易网络的结构特征有助于识别电信诈骗。针对电信诈骗的集团特性,设计相应的马尔可夫网络用于识别电信诈骗中的欺诈账户。给出了该马尔可夫网络的线性迭代优化式,并证明了其理论收敛条件。最后在模拟数据和真实数据上测试了所提方法的性能,并将其与CIA和SybilRank进行比较。实验结果表明,所提方法具有更低的假阳性和更好的抗噪性。在真实数据上,将基于账户交易特征的方法与所提方法结合,可以取得比单独使用两种方法更好的识别性能。  相似文献   

18.
在不平衡数据的分类中,标准分类器为优化整体的分类误差会牺牲少数类的分类准确率,而实际应用中通常更重视对少数类的准确识别。数据层面方法因其有独立于分类器、泛化能力较强、实现简单等优势,成为解决不平衡数据分类问题的有效策略。围绕不平衡数据分类的数据层面方法开展综述研究,分析造成不平衡数据分类问题的影响因素,从样本空间优化、特征空间优化两个方向对重采样方法及特征选择方法的相关研究进行梳理和评述,并对两类方法进行横向比较。最后提出了需要重点关注的问题和可能的研究机会,以期为不平衡数据分类算法研究及应用提供借鉴和参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号