首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 218 毫秒
1.
随着中国信贷业务的发展,贷款的违约风险评估已成为一项至关重要的任务。由于金融信用数据特征较多,而不同的特征之间可能存在复杂的内在联系。传统机器学习方法与集成学习方法的有效性依赖于特征的选择,忽略了数据的内在联系,而且特征选择也会造成信息丢失。针对以上问题,提出了一种多尺度深度特征融合的特征提取器。首先,对一维数据进行多尺度卷积,充分地提取特征之间的内在联系,并进行注意力融合,以获取更为关键的特征。然后,利用集成学习XGBoost分类器对深层次抽象特征进行分类,最终获得预测结果。在真实数据集上进行评估的实验结果表明,多尺度深度特征融合方式能够更好地预测个人信用风险,与传统机器学习方法和XGBoost模型相比,其AUC与KS值均有所提高。  相似文献   

2.
在电子商务时代背景下,精准预测用户的购买意向已经成为提高销售效率和优化客户体验的关键因素。针对传统集成策略在模型设计阶段往往受人为因素限制的问题,构建了一种自适应进化集成学习模型用于预测用户的购买意向。该模型能够自适应地选择最优基学习器和元学习器,并融合基学习器的预测信息和特征间的差异性扩展特征维度,从而提高预测的准确性。此外,为进一步优化模型的预测效果,设计了一种二元自适应差分进化算法进行特征选择,旨在筛选出对预测结果有显著影响的特征。研究结果表明,与传统优化算法相比,二元自适应差分进化算法在全局搜索和特征选择方面表现优异。相较于六种常见的集成模型和DeepForest模型,所构建的进化集成模型在AUC值上分别提高了2.76%和2.72%,并且能够缓解数据不平衡所带来的影响。  相似文献   

3.
近年来恶意软件不断地发展变化,导致单一检测模型的准确率较低,使用集成学习组合多种模型可以提高检测效果,但集成模型中基学习器的准确性和多样性难以平衡。为此,提出一种基于遗传规划的集成模型生成方法,遗传规划可以将特征处理和构建集成模型两个阶段集成到单个程序树中,解决了传统恶意软件集成检测模型难以平衡个体准确率和多样性的问题。该方法以集成模型的恶意软件检出率作为种群进化依据,保证了基学习器的准确性;在构建集成模型时自动选择特征处理方法、分类算法和优化基学习器的超参数,通过输入属性扰动和算法参数扰动增加基学习器的多样性,根据优胜劣汰的思想进化生成具有高准确性和多样性的最优集成模型。在EMBER数据集上的结果表明,最优集成模型的检测准确率达到了98.88%;进一步的分析表明,该方法生成的模型具有较高的多样性和可解释性。  相似文献   

4.
章宁  陈钦 《计算机应用》2018,38(10):3042-3047
针对目前P2P贷款违约预测模型受限于借贷双方信息不对称性,未考虑投资人之间差异性的问题,提出了基于信息检索词频-逆文本频率(TF-IDF)算法的P2P贷款违约预测模型。首先以投资效用理论为基础,利用投资人历史投资收益率、贷款利率出价等信息,建立基于投资人效用的贷款违约预测模型;然后,借鉴信息检索TF-IDF算法,构造投资人逆向投资比例因子,对投资人差异性进行量化度量,优化模型中投资人权重计算因子。实验结果表明,该模型预测准确度与其他模型相比平均提高了6%左右,并在不同的测试数据集上都保持最优。  相似文献   

5.
离群点检测任务通常缺少可用的标注数据,且离群数据只占整个数据集的很小一部分,相较于其他的数据挖掘任务,离群点检测的难度较大,尚没有单一的算法适合于所有的场景。因此,结合多样性模型集成和主动学习思想,提出了一种基于主动学习的离群点集成检测方法OMAL(Outlier Mining based on Active Learning)。在主动学习框架指导下,根据各种基学习器的对比分析,选择了基于统计的、基于相似性的、基于子空间划分的三个无监督模型作为基学习器。将各基学习器评判的处于离群和正常边界的数据整合后呈现给人类专家进行标注,以最大化人类专家反馈的信息量;从标注的数据集和各基学习器投票产生的数据集中抽样,基于GBM(Gradient BoostingMachine)训练一个有监督二元分类模型,并将该模型应用于全数据集,得出最终的挖掘结果。实验表明,提出方法的AUC有了较为明显的提升,且具有良好的运行效率,具备较好的实用价值。  相似文献   

6.
甘舰文  陈艳  周芃  杜亮 《计算机应用》2023,(9):2665-2672
现有的大部分关于聚类集成的研究主要关注有效的集成算法的设计。为解决由于基聚类器的质量高低不一、低质量的基聚类器对聚类集成性能产生影响的问题,从数据发掘的角度出发,以基聚类器为基础挖掘数据的内在联系,提出一种高阶信息融合算法——基于高阶一致性学习的聚类集成(HCLCE)算法,从不同的维度表示数据之间的联系。首先,将每种高阶信息融合成一个新的结构化的一致性矩阵;然后,再对得到的多个一致性矩阵进行融合;最后,将多种信息融合为一个一致性的结果。实验结果表明,与次优的LWEA(Locally Weighted Evidence Accumulation)算法相比,HCLCE算法的聚类准确率平均提升了7.22%,归一化互信息(NMI)平均提升了9.19%。可见,HCLCE能得到比聚类集成算法和单独使用一种信息更好的聚类结果。  相似文献   

7.
为了应对互联网环境中企业自律性低、违规事件频发、政府监管困难的现状,提出一种针对企业自律性评价的双层集成残差预测神经网络(TenrepNN)模型,并融合Stacking和Bagging集成学习的思想提出一种集成学习的新范式Adjusting。TenrepNN模型具有两层结构:第1层使用3种基学习器初步预测企业评分;第2层采用残差修正的思想,提出残差预测神经网络以预测每个基学习器的输出偏差。最后,将偏差与基学习器评分相加得到最终输出。在企业自律性评价数据集上,相较于传统的神经网络,TenrepNN模型的均方根误差(RMSE)降低了2.7%,企业自律性等级分类准确率达到了94.51%。实验结果表明,TenrepNN模型集成不同的基学习器降低预测方差,并使用残差预测神经网络显式地降低偏差,从而能够准确评价企业自律性以实现差异化的动态监管。  相似文献   

8.
真值发现是数据集成领域具有挑战性的研究热点之一。传统的方法利用数据源与观测值之间的交互关系推断真值,缺乏足够的特征信息;基于深度学习的方法可以有效地进行特征抽取,但其性能依赖于大量手工标注,而在实际应用中很难获取到大量高质量的真值标签。为克服以上问题,本文提出一种基于多特征融合的无监督真值发现方法(Unsupervised truth discovery method based on multi-feature fusion, MFOTD)。首先,利用集成学习无监督标注“真值”标签;然后,分别使用预训练模型 Bert和独热编码获取观测值的语义特征和交互特征;最后,融合观测值多种特征并使用其“真值”标签构建初始训练集,通过自训练方式训练真值预测模型。在两个真实数据集上的实验结果表明,与已有方法相比,本文所提出的方法具有更高的真值发现准确性。  相似文献   

9.
微博中短文本、用语不规范和大量噪音等特性使得传统话题发现方法不能很好地从中获取新话题。针对微博以上特性和话题动态性提出一种基于聚类集成的微博话题发现方法,该方法考虑微博发布的非线性时间因子,采用改进的K-Means方法分别融合微博的各个特性构造其对应的基聚类器,并评估各基聚类器之间的有效性和差异性,以此设置集成投票权值并最终进行聚类集成。实验对比结果表明,该方法将微博发现话题的准确性提升约9.5%,能够更有效地探测到新话题。  相似文献   

10.
集成学习是一种联合多个学习器进行协同决策的机器学习方法,应用在机器翻译任务的推断过程中可以有效整合多个模型预测的概率分布,达到提升翻译系统准确性的目的。虽然该方法的有效性已在机器翻译评测中得到了广泛验证,但关于子模型的选择与融合的策略仍鲜有研究。该文主要针对机器翻译任务中的参数平均与模型融合两种集成学习方法进行大量的实验,分别从模型与数据层面、多样性与模型数量层面对集成学习的策略进行了深入探索。实验结果表明在WMT中英新闻任务上,所提模型相比Transformer单模型有3.19个BLEU值的提升。  相似文献   

11.
12.
针对传统单个分类器在不平衡数据上分类效果有限的问题,基于对抗生成网络(GAN)和集成学习方法,提出一种新的针对二类不平衡数据集的分类方法——对抗生成网络-自适应增强-决策树(GAN-AdaBoost-DT)算法。首先,利用GAN训练得到生成模型,生成模型生成少数类样本,降低数据的不平衡性;其次,将生成的少数类样本代入自适应增强(AdaBoost)模型框架,更改权重,改进AdaBoost模型,提升以决策树(DT)为基分类器的AdaBoost模型的分类性能。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在信用卡诈骗数据集上的实验分析表明,该算法与合成少数类样本集成学习相比,准确率提高了4.5%,受测者工作特征曲线下面积提高了6.5%;对比改进的合成少数类样本集成学习,准确率提高了4.9%,AUC值提高了5.9%;对比随机欠采样集成学习,准确率提高了4.5%,受测者工作特征曲线下面积提高了5.4%。在UCI和KEEL的其他数据集上的实验结果表明,该算法在不平衡二分类问题上能提高总体的准确率,优化分类器性能。  相似文献   

13.
Ensemble pruning deals with the selection of base learners prior to combination in order to improve prediction accuracy and efficiency. In the ensemble literature, it has been pointed out that in order for an ensemble classifier to achieve higher prediction accuracy, it is critical for the ensemble classifier to consist of accurate classifiers which at the same time diverse as much as possible. In this paper, a novel ensemble pruning method, called PL-bagging, is proposed. In order to attain the balance between diversity and accuracy of base learners, PL-bagging employs positive Lasso to assign weights to base learners in the combination step. Simulation studies and theoretical investigation showed that PL-bagging filters out redundant base learners while it assigns higher weights to more accurate base learners. Such improved weighting scheme of PL-bagging further results in higher classification accuracy and the improvement becomes even more significant as the ensemble size increases. The performance of PL-bagging was compared with state-of-the-art ensemble pruning methods for aggregation of bootstrapped base learners using 22 real and 4 synthetic datasets. The results indicate that PL-bagging significantly outperforms state-of-the-art ensemble pruning methods such as Boosting-based pruning and Trimmed bagging.  相似文献   

14.
Ensemble learning learns from the training data by generating an ensemble of multiple base learners. It is well-known that to construct a good ensemble with strong generalization ability, the base learners are deemed to be accurate as well as diverse. In this paper, unlabeled data is exploited to facilitate ensemble learning by helping augment the diversity among the base learners. Specifically, a semi-supervised ensemble method named udeed, i.e. Unlabeled Data to Enhance Ensemble Diversity, is proposed. In contrast to existing semi-supervised ensemble methods which utilize unlabeled data by estimating error-prone pseudo-labels on them to enlarge the labeled data to improve base learners’ accuracies, udeed works by maximizing accuracies of base learners on labeled data while maximizing diversity among them on unlabeled data. Extensive experiments on 20 regular-scale and five large-scale data sets are conducted under the setting of either few or abundant labeled data. Experimental results show that udeed can effectively utilize unlabeled data for ensemble learning via diversity augmentation, and is highly competitive to well-established semi-supervised ensemble methods.  相似文献   

15.
基于动态权重的Adaboost算法研究 *   总被引:1,自引:0,他引:1  
针对Adaboost算法只能静态分配基分类器权重,不能自适应地对每个测试样本动态调整权重的问题,提出了一种基于动态权重的Adaboost算法。算法通过对训练样本集合进行聚类,并分析每个基分类器和每个类簇的适应性,进而为每个基分类器在不同类簇上设置不同权重,最终根据测试样本与类簇之间的相似性来计算基分类器在测试样本上的权重。在UCI数据集上的实验结果表明本文提出算法有效利用了测试样本之间的差异性,得到了比Adaboost算法更好的效果。  相似文献   

16.
在实际生活中,可以很容易地获得大量系统数据样本,却只能获得很小一部分的准确标签。为了获得更好的分类学习模型,引入半监督学习的处理方式,对基于未标注数据强化集成多样性(UDEED)算法进行改进,提出了UDEED+——一种基于权值多样性的半监督分类算法。UDEED+主要的思路是在基学习器对未标注数据的预测分歧的基础上提出权值多样性损失,通过引入基学习器权值的余弦相似度来表示基学习器之间的分歧,并且从损失函数的不同角度充分扩展模型的多样性,使用未标注数据在模型训练过程中鼓励集成学习器的多样性的表示,以此达到提升分类学习模型性能和泛化性的目的。在8个UCI公开数据集上,与UDEED算法、S4VM(Safe Semi-Supervised Support Vector Machine)和SSWL(Semi-Supervised Weak-Label)半监督算法进行了对比,相较于UDEED算法,UDEED+在正确率和F1分数上分别提升了1.4个百分点和1.1个百分点;相较于S4VM,UDEED+在正确率和F1分数上分别提升了1.3个百分点和3.1个百分点;相较于SSWL,UDEED+在正确率和F1分数上分别提升了0.7个百分点和1.5个百分点。实验结果表明,权值多样性的提升可以改善UDEED+算法的分类性能,验证了其对所提算法UDEED+的分类性能提升的正向效果。  相似文献   

17.
Ensemble learning is the process of aggregating the decisions of different learners/models. Fundamentally, the performance of the ensemble relies on the degree of accuracy in individual learner predictions and the degree of diversity among the learners. The trade-off between accuracy and diversity within the ensemble needs to be optimized to provide the best grouping of learners as it relates to their performance. In this optimization theory article, we propose a novel ensemble selection algorithm which, focusing specifically on clustering problems, selects the optimal subset of the ensemble that has both accurate and diverse models. Those ensemble selection algorithms work for a given number of the best learners within the subset prior to their selection. The cardinality of a subset of the ensemble changes the prediction accuracy. The proposed algorithm in this study determines both the number of best learners and also the best ones. We compared our prediction results to recent ensemble clustering selection algorithms by the number of cardinalities and best predictions, finding better and approximated results to the optimum solutions.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号