首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 261 毫秒
1.
不平衡分类问题广泛地应用于现实生活中,针对大多数重采样算法侧重于类间平衡,较少关注类内数据分布不平衡问题,提出一种基于聚类的混合采样算法。首先对原始数据集聚类,然后对每一簇样本计算不平衡比,根据不平衡比的大小对该簇样本做出相应处理,最后将平衡后的数据集放入GBDT分类器进行训练。实验表明该算法与几种传统算法相比F1-value和AUC更高,分类效果更好。  相似文献   

2.
现有基于机器学习的入侵检测方法大多专注于提高整体检测率和降低整体的漏报率,忽视了少数类别的检测率和漏报率。为此,提出了一种基于SMOTE (Synthetic Minority Oversampling Technique )和GBDT(Gradient Boosting Decision Tree)的入侵检测方法。其核心思想是首先在预处理阶段使用SMOTE技术提高少数类别的样本数量,且对多数类别样本降采样,最后在平衡数据集上训练GBDT分类器。利用KDD99数据集进行实验验证,并与在原始训练集上训练的分类器、KDD99竞赛的最好成绩对比,结果表明,该方法在保持较高的整体正确率的同时较大程度上降低了少数类的漏报率。  相似文献   

3.
运用数据挖掘技术进行铁路事故类型预测及成因分析, 对于建立铁路事故预警机制具有重要意义. 为此, 本文提出一种基于梯度提升决策树(Grandient boosting decision tree, GBDT)的铁路事故类型预测及成因分析算法. 针对铁路事故记录数据缺失的问题, 提出一种基于属性分布概率的补全算法, 最大程度保持原有数据分布, 从而降低数据缺失对事故类型预测造成的影响. 针对铁路事故记录数据类别失衡的问题, 提出一种集成的GBDT模型, 完成对事故类型的鲁棒性预测. 在此基础上, 根据GBDT预测模型中特征重要度排序, 实现事故成因分析. 通过在开放数据库上进行实验, 验证了本文模型的有效性.  相似文献   

4.
随着联邦学习的不断兴起,梯度提升决策树(GBDT)作为一种传统的机器学习方法,逐渐应用于联邦学习中以达到理想的分类效果。针对现有GBDT的横向联邦学习模型,存在精度受非独立同分布数据的影响较大、信息泄露和通信成本高等问题,提出了一种面向非独立同分布数据的联邦梯度提升决策树(federated GBDT for non-IID dataset,nFL-GBDT)。首先,采用局部敏感哈希(LSH)来计算各个参与方之间的相似样本,通过加权梯度来构建第一棵树。其次,由可靠第三方计算只需要一轮通信的全局叶权重来更新树模型。最后,实验分析表明了该算法能够实现对原始数据的隐私保护,并且通信成本低于simFL和FederBoost。同时,实验按照不平衡比率来划分三组公共的数据集,结果表明该算法与Individual、TFL及F-GBDT-G相比,准确率分别提升了3.53%、5.46%和4.43%。  相似文献   

5.
短视频喜好率预测往往面临着用户及广告的数量巨大且训练数据集高维、稀疏等问题,从而导致预测准确度下降。针对这些问题提出了基于LDA-GBDT-FM的短视频喜好率预测模型,该模型利用隐狄利克雷分配模型(LDA)对原始数据集基于主题分割,利用梯度提升决策树(GBDT)对不同主题的子训练集提取连续型特征的高影响力特征,将其与离散特征合并来训练因子分解机(FM)模型,最后有效组合子模型,进而预测短视频的喜好率。实验基于Bytedance公司的数据集,实验结果表明,提出的LDA-GBDT-FM模型相较于LDA-FM、FM和LR在预测指标上分别提高了3.0%、5.7%和8.5%。  相似文献   

6.
传统的过采样方法是解决非平衡数据分类问题的有效方法之一。基于SMOTE的过采样方法在数据集出现类别重叠(class-overlapping)和小析取项(small-disjuncts)问题时将降低采样的效果,针对该问题提出了一种基于样本局部密度的过采样算法MOLAD。在此基础上,为了解决非平衡数据的分类问题,提出了一种在采样阶段将MOLAD算法和基于Bagging的集成学习结合的算法LADBMOTE。LADBMOTE首先根据MOLAD计算每个少数类样本的K近邻,然后选择所有的K近邻进行采样,生成K个平衡数据集,最后利用基于Bagging的集成学习方法将K个平衡数据集训练得到的分类器集成。在KEEL公开的20个非平衡数据集上,将提出的LADBMOTE算法与当前流行的7个处理非平衡数据的算法对比,实验结果表明LADBMOTE在不同的分类器上的分类性能更好,鲁棒性更强。  相似文献   

7.
医保欺诈检测具有迫切的现实意义,当前工作主要以机器学习方法为主,但面临两个重要问题:(1)数据不平衡问题较为突出,欺诈样本占比极小,影响识别效果;(2)数据特征的选取与构造过于依赖领域业务知识,难以保证特征有效性。针对这些问题,提出了一种针对不平衡医保数据的欺诈检测方法--WKAG。使用WGAN-KDE(Wasserstein Generative Adversarial Network-Kernel Density Estimation)方法改善数据不平衡问题,结合自编码器(Auto-Encoder)提取数据的深层隐藏特征,使用Gradient Boosted Decision Tree(GBDT)检测医保欺诈行为。在多个公开数据集上验证了该方法有效性,并在真实医保业务数据集上进行了实验验证,结果表明了WKAG可作为医保欺诈行为的有效检测方法。  相似文献   

8.
数据挖掘与机器学习技术日益趋向成熟并且被广泛应用于实际问题的处理中,但该领域仍面临着诸多挑战,如不平衡数据集分类问题。利用过采样技术处理这类问题时,通常只考虑数量的不平衡,而不考虑数据分布是否平衡。利用信息熵度量数据集的局部密度信息,从分布上考虑数据集的不平衡程度,并提出了基于熵的危险集的概念和它的三种使用策略,即基于熵的危险集过采样算法、基于熵的安全集过采样算法和基于熵的自适应过采样算法。竞争性的实验结果表明,这些算法可以有效提升经典过采样算法的性能,为进一步利用信息熵理论研究不平衡数据集提供了成功的实践经验。  相似文献   

9.
为了解决传统胎儿窘迫诊断过程中存在主观性强和误诊率高的问题,应用梯度提升决策树(GBDT)和逻辑回归(LR)融合的方法设计了胎儿窘迫预诊断模型.首先,利用Borderline-SMOTE算法对正类样本进行过采样,使得数据集中正负类样本平衡;然后,利用GBDT模型从平衡后的数据中获得组合特征,再将组合特征与原始特征合并后...  相似文献   

10.
《微型机与应用》2015,(23):7-10
针对传统的机器学习算法对不平衡数据集的少类分类准确率不高的问题,基于支持向量机和模糊聚类,提出一种不平衡数据加权集成学习算法。首先提出加权支持向量机模型(Weighted Support Vector Machine,WSVM),该模型根据不同类别数据所占比例的不同,为各类别分配不同的权重,然后将WSVM与模糊聚类结合提出一种新的集成学习算法。将本文提出的算法应用于人造数据集和UCI数据集实验中,实验结果表明,所提出的算法能够有效地解决不平衡数据的分类问题,具有更好的分类性能。  相似文献   

11.
Forecasting the direction of the daily changes of stock indices is an important yet difficult task for market participants. Advances on data mining and machine learning make it possible to develop more accurate predictions to assist investment decision making. This paper attempts to develop a learning architecture LR2GBDT for forecasting and trading stock indices, mainly by cascading the logistic regression (LR) model onto the gradient boosted decision trees (GBDT) model. Without any assumption on the underlying data generating process, raw price data and twelve technical indicators are employed for extracting the information contained in the stock indices. The proposed architecture is evaluated by comparing the experimental results with the LR, GBDT, SVM (support vector machine), NN (neural network) and TPOT (tree-based pipeline optimization tool) models on three stock indices data of two different stock markets, which are an emerging market (Shanghai Stock Exchange Composite Index) and a mature stock market (Nasdaq Composite Index and S&P 500 Composite Stock Price Index). Given the same test conditions, the cascaded model not only outperforms the other models, but also shows statistically and economically significant improvements for exploiting simple trading strategies, even when transaction cost is taken into account.  相似文献   

12.
早产是新生儿死亡及病残的首要原因, 且影响新生儿的远期健康. 然而早产的准确预测一直是医学上的一个难题. 目前医学上早产的早期筛查多基于特殊检查, 但因成本核算等问题难以大规模临床应用, 而电子病历的普及和人工智能技术的发展, 为产科疾病的早期风险评估提供支持. 本文利用产科电子病历的诊疗信息, 构建GRU和GBDT的...  相似文献   

13.
针对脑机接口研究中的脑电信号特征提取与分类问题,提出了一种基于双树复小波变换结合GBDT的想象左右手运动脑电识别的方法。该方法首先深入研究了双树复小波变换相比于小波包变换在脑电信号特征提取方面的优势并验证了ERD/ERS现象;实验数据采用了2003年国际脑机接口竞赛的标准数据集DataSetⅢ,然后,选取了4个典型的时间段进行实验对比,利用双树复小波变换分解与重构提取运动感知节律相关信号分量的能量均值作为特征进行GBDT分类。最后,实验取得了较好的分类准确度,验证了双树复小波变换结合GBDT的方法在脑电信号识别应用中的有效性。  相似文献   

14.
Insider trading is a kind of criminal behavior in stock market by using nonpublic information. In recent years, it has become the major illegal activity in China’s stock market. In this study, a combination approach of GBDT (Gradient Boosting Decision Tree) and DE (Differential Evolution) is proposed to identify insider trading activities by using data of relevant indicators. First, insider trading samples occurred from year 2007 to 2017 and corresponding non-insider trading samples are collected. Next, the proposed method is trained by the GBDT, and initial parameters of the GBDT are optimized by the DE. Finally, out-of-samples are classified by the trained GBDT–DE model and its performances are evaluated. The experiment results show that our proposed method performed the best for insider trading identification under time window length of ninety days, indicating the relevant indicators under 90-days time window length are relatively more useful. Additionally, under all three time window lengths, relative importance result shows that several indicators are consistently crucial for insider trading identification. Furthermore, the proposed approach significantly outperforms other benchmark methods, demonstrating that it could be applied as an intelligent system to improve identification accuracy and efficiency for insider trading regulation in China stock market.  相似文献   

15.
现有的加密流量检测技术缺少对数据和模型的隐私性保护,不仅违反了隐私保护法律法规,而且会导致严重的敏感信息泄露.主要研究了基于梯度提升决策树(GBDT)算法的加密流量检测模型,结合差分隐私技术,设计并实现了一个隐私保护的加密流量检测系统.在CICIDS2017数据集下检测了 DDoS攻击和端口扫描的恶意流量,并对系统性能...  相似文献   

16.
微博是信息共享的重要平台,同时,也成为虚假消息产生和推广的重要平台,虚假消息的传播严重扰乱了社会秩序。为了快速、有效地识别微博虚假消息,提出一种基于梯度提升决策树(GBDT)的虚假消息检测方法。首先,从评论的角度分析微博虚假消息和真实消息之间存在的差异,在此基础上提取评论中的文本内容、用户属性,信息传播和时间特性的分类特征;然后,基于分类特征,采用GBDT算法实现微博虚假消息识别模型;最后,在两个真实的微博数据集上进行验证。实验结果表明,基于GBDT的识别模型能有效提高微博虚假消息检测的准确率。  相似文献   

17.
如何准确高效地预测销量是企业一直以来关注的重要问题.传统的时间序列预测方法虽然在研究和实践中占主导地位,但是存在一定的局限性.随着大数据的发展,电商企业能获取前所未有的数据量和数据特征,仅利用过去的行为和趋势很难准确地对销量进行预测.本文提出一种基于随机森林、GBDT、XGBoost算法的成本厌恶偏向性组合预测模型,并...  相似文献   

18.
基于梯度提升决策树的电力电子电路故障诊断   总被引:1,自引:0,他引:1  
针对电力电子电路的常见故障类型,提出一种利用主元分析(PCA)提取电路状态的故障信息特征和基于梯度提升决策树(GBDT)分类的电力电子电路故障诊断方法.首先讨论利用PCA进行特征提取的步骤以及GBDT的分类原理;然后研究了基于PCA特征提取以及GBDT分类的电力电子电路故障诊断流程;最后利用三相桥式整流电路进行了建模、仿真、验证,实验结果表明,采用该方法进行电力电子电路故障诊断相比其他方法在低维空间具有更高的诊断准确率和更佳的样本泛化能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号