首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
异常检测系统在网络空间安全中起着至关重要的作用,为网络安全提供有效的保障.对于复杂的网络流量信息,传统的单一的分类器往往无法同时具备较高检测精确度和较强的泛化能力.此外,基于全特征的异常检测模型往往会受到冗余特征的干扰,影响检测的效率和精度.针对这些问题,本文提出了一种基于平均特征重要性的特征选择和集成学习的模型,选取决策树(DT)、随机森林(RF)、额外树(ET)作为基分类器,建立投票集成模型,并基于基尼系数计算基分类器的平均特征重要性进行特征选择.在多个数据集上的实验评估结果表明,本文提出的集成模型优于经典集成学习模型及其他著名异常检测集成模型.且提出的基于平均特征重要性的特征选择方法可以使集成模型准确率平均进一步提升约0.13%,训练时间平均节省约30%.  相似文献   

2.
集成学习算法的差异性及性能比较   总被引:1,自引:0,他引:1       下载免费PDF全文
从差异性出发,研究了基于特征集技术(通过一定的策略选取不同特征集以组成训练集)与数据技术(通过取样技术选取不同的训练集)的集成学习算法,分析了两种集成学习算法产生差异性的方法。针对决策树与神经网络模型,在标准数据集中对集成学习算法的性能进行实验研究,结果表明集成学习算法的性能依赖于数据集的特性以及产生差异性的方法等因素。从总体性能考虑,基于数据的集成学习算法在大多数数据集上优于基于特征集的集成学习算法。  相似文献   

3.
针对传统基于远程监督的关系抽取方法中存在噪声和负例数据利用不足的问题,提出结合从句级远程监督和半监督集成学习的关系抽取方法.首先通过远程监督构建关系实例集,使用基于从句识别的去噪算法去除关系实例集中的噪声.然后抽取关系实例的词法特征并转化为分布式表征向量,构建特征数据集.最后选择特征数据集中所有正例数据和部分负例数据组成标注数据集,其余的负例数据组成未标注数据集,通过改进的半监督集成学习算法训练关系分类器.实验表明,相比基线方法,文中方法可以获得更高的分类准确率和召回率.  相似文献   

4.
基于数据挖掘的体育训练决策支持系统   总被引:1,自引:0,他引:1  
在我国,大学生的体育运动一般是通过体育课堂学习与业余锻炼为主,基本上是处于一种无序状态.本文介绍了采用数据仓库技术和数据挖掘技术构建的大学生体育训练辅助决策支持系统,把大学生的不同方面实现有机的集成,把科学的训练理论、先进的训练方法应用于大学生体育运动训练管理,该系统是基于南昌大学在校大学生的体育成绩及身体检查表等数据,通过数据挖掘技术产生新的知识规则来充实知识库,根据用户输入选择相应的模型并结合知识库中的规则来逐步产生一套合理的体育运动高中训练方案.  相似文献   

5.
针对自制电影数据集中电影的排序问题,文章提出了一种基于RF的Bootstrap自适应双集成排序学习方法(RandomForest-based Bootstrap Self-adaptive Double-ensemble,RF-based BSD).先利用电影媒体网站数据构建21个特征自建基于排序学习格式的电影数据集,BSD会根据输入数据集的查询数、查询-电影对数和特征数,通过Bootstrap自适应函数自动确定RF的子采样比例,然后使用单集成模型(比如MART,Multiple Additive Regression Tree,多重累计回归树)作为基学习器进行训练,最后采用bagging思想输出最终的双集成模型.实验结果显示,对比两个评价指标NDCG(Normalized Discounted Cumulative Gain,归一化折扣累计增益)和MAP(Mean Average Precision,平均值均值)的评估效果,发现BSD输出的双集成模型比单集成模型在两项指标上均有1%-3%左右的提升.  相似文献   

6.
针对瓦斯灾害危险性预测中预测性能低的问题,对一种基于矿井内瓦斯浓度与环境因素相关性分析的瓦斯灾害选择集成预测方法进行了研究。首先,分析实验数据中样本属性与瓦斯浓度的相关性,并根据相关性分析结果进行属性约简得到新的数据集;其次,训练基学习器并应用优化集成前序选择方法建立选择集成回归学习模型;最后,将模型应用于瓦斯灾害预测。实验结果表明,基于相关性分析的选择集成回归学习模型对瓦斯灾害危险性的识别率比未进行相关性分析的四个基学习器平均提高了24%,比未进行相关性分析的选择集成回归学习模型提高了7.6%。  相似文献   

7.
针对众包标记经过标记集成后仍然存在噪声的问题,提出了一种基于自训练的众包标记噪声纠正算法(Selftraining-based label noise correction, STLNC). STLNC整体分为3个阶段:第1阶段利用过滤器将带集成标记的众包数据集分为噪声集和干净集.第2阶段利用加权密度峰值聚类算法构建数据集中低密度实例指向高密度实例的空间结构关系.第3阶段首先根据发现的空间结构关系设计噪声实例选择策略;然后利用在干净集上训练的集成分类器对选择的噪声实例按照设计的实例纠正策略进行纠正,并将纠正后的实例加入到干净集,再重新训练集成分类器;重复实例选择与纠正过程直到噪声集中所有的实例被纠正;最后用最后一轮训练得到的集成分类器对所有实例进行纠正.在仿真标准数据集和真实众包数据集上的实验结果表明STLNC比其他5种最先进的噪声纠正算法在噪声比和模型质量两个度量指标上表现更优.  相似文献   

8.
目前,针对数据库系统内部攻击与威胁的检测方法较少,且已有的数据库异常检测方案存在代价开销高、检测准确率低等问题.为此,将密度聚类和集成学习融合,提出一种基于密度聚类和集成学习的数据库异常检测方法.利用OPTICS(Ordering Points To Identify the Clustering Structure)密度聚类算法对用户产生的数据库SQL操作日志进行聚类,通过对SQL语句中的各属性进行分析,提取用户的异常行为,形成先验知识;将Bagging、Boosting和Stacking进行组合,形成集成学习模型,以OPTICS聚类形成的先验知识为基础,并利用该集成学习模型对用户行为作进一步分析,并创建用户行为特征库.基于用户形成特征库,对用户行为进行检测.给出了方案的详细构建过程,包括数据预处理、训练、学习模型建立以及异常检测;利用相关实验数据进行测试,结果表明本方案能以较高的效率检测出数据库异常行为,并且在准确率方面优于同类方案.  相似文献   

9.
在电子商务时代背景下,精准预测用户的购买意向已经成为提高销售效率和优化客户体验的关键因素。针对传统集成策略在模型设计阶段往往受人为因素限制的问题,构建了一种自适应进化集成学习模型用于预测用户的购买意向。该模型能够自适应地选择最优基学习器和元学习器,并融合基学习器的预测信息和特征间的差异性扩展特征维度,从而提高预测的准确性。此外,为进一步优化模型的预测效果,设计了一种二元自适应差分进化算法进行特征选择,旨在筛选出对预测结果有显著影响的特征。研究结果表明,与传统优化算法相比,二元自适应差分进化算法在全局搜索和特征选择方面表现优异。相较于六种常见的集成模型和DeepForest模型,所构建的进化集成模型在AUC值上分别提高了2.76%和2.72%,并且能够缓解数据不平衡所带来的影响。  相似文献   

10.
针对电商大数据时代用户未来购买行为预测,在京东平台真实数据集上,提出时间滑动窗口技术和窗口权重递减设置,从五方面构建整体用户行为特征,综合考虑深度学习的表征学习能力和集成学习的训练效率,引入多层异源集成算法,将随机森林、XGBoost等多种算法进行组合,搭建基于深度森林模型的用户购买行为预测算法框架,实现准确高效的用户购买预测结果。算法训练时间为68 s,预测准确率达89.3%,相对于集成学习算法和深度神经网络模型取得了更好的效果。  相似文献   

11.
纪冲  刘岩 《计算机仿真》2021,38(7):313-316
传统的数据集成挖掘方法在集成与挖掘两个步骤之间存在较大误差,导致大数据出现乱码问题,数据显示不全.为解决上述问题,提出基于半监督深度学习法的大数据集成挖掘方法.利用有监督与无监督深度学习间的机器学习,组成半监督深度学习.利用支持向量数据组建立超球体.依据超球体结合标记样本,组建半监督深度学习数据检测模型,筛选样本特征词,利用半监督深度学习方法训练单分类SVDD模型,实现网络大数据集成挖掘.仿真结果证明,所提方法能够高精度、高效的对大数据完成集成挖掘,具有理想的应用性能.  相似文献   

12.
图卷积神经网络可以通过图卷积提取图数据的有效信息,但容易受到对抗攻击的影响导致模型性能下降。对抗训练能够用于提升神经网络鲁棒性,但由于图的结构及节点特征通常是离散的,无法直接基于梯度构造对抗扰动,而在模型的嵌入空间中提取图数据的特征作为对抗训练的样本,能够降低构造复杂度。借鉴集成学习思想,提出一种基于非鲁棒特征的图卷积神经网络对抗训练方法VDERG,分别针对拓扑结构和节点属性两类特征,构建两个图卷积神经网络子模型,通过嵌入空间提取非鲁棒特征,并基于非鲁棒特征完成对抗训练,最后集成两个子模型输出的嵌入向量作为模型节点表示。实验结果表明,提出的对抗训练方法在干净数据上的准确率平均提升了0.8%,在对抗攻击下最多提升了6.91%的准确率。  相似文献   

13.
集成学习已成为一种广泛使用的软测量建模框架,但是建立高性能的集成学习软测量模型依然面临特征选择不当、基模型多样性不足、基模型估计性能不佳等诸多挑战.为此,提出一种基于堆栈自编码器多样性生成机制的选择性集成学习高斯过程回归(selective ensemble of stacked autoencoder based Gaussian process regression, SESAEGPR)软测量建模方法.该方法充分发挥深度学习在特征提取方面的优势,通过构建多样性的堆栈自编码器(stacked autoencoder, SAE)网络,建立基于隐特征的高斯过程回归(Gaussian process regression, GPR)基模型.基于模型性能提升率和进化多目标优化对SAEGPR基模型实施两次集成修剪,以降低集成模型复杂度、保持甚至进一步提升模型估计性能,最后,引入PLS Stacking集成策略实现基模型融合.所提出方法显著优于传统全局和全集成软测量建模方法,其有效性和优越性通过青霉素发酵过程和Tennessee Eastman化工过程得到验证.  相似文献   

14.
近年来恶意软件不断地发展变化,导致单一检测模型的准确率较低,使用集成学习组合多种模型可以提高检测效果,但集成模型中基学习器的准确性和多样性难以平衡。为此,提出一种基于遗传规划的集成模型生成方法,遗传规划可以将特征处理和构建集成模型两个阶段集成到单个程序树中,解决了传统恶意软件集成检测模型难以平衡个体准确率和多样性的问题。该方法以集成模型的恶意软件检出率作为种群进化依据,保证了基学习器的准确性;在构建集成模型时自动选择特征处理方法、分类算法和优化基学习器的超参数,通过输入属性扰动和算法参数扰动增加基学习器的多样性,根据优胜劣汰的思想进化生成具有高准确性和多样性的最优集成模型。在EMBER数据集上的结果表明,最优集成模型的检测准确率达到了98.88%;进一步的分析表明,该方法生成的模型具有较高的多样性和可解释性。  相似文献   

15.
周钢  郭福亮 《计算机科学》2021,48(z1):250-254
从集成学习的预测误差分析和偏差-方差分解可以发现使用有限的、具有正确率和差异性的基学习器进行集成学习,具有更好的泛化精度.利用信息熵构建了两阶段的特征选择集成学习方法,第一阶段先按照相对分类信息熵构建精度高于0.5的基特征集B;第二阶段先在B的基础上按互信息熵标准评判独立性,运用贪心算法构建独立的特征子集,再运用Jaccard系数评价特征子集间多样性,选取多样性的独立特征子集并构建基学习器.通过数据实验分析发现,该优化方法的执行效率和测试精度优于普通Bagging方法,在多分类的高维数据集上优化效果更好,但不适用于二分类问题.  相似文献   

16.
基于k-means聚类的神经网络分类器集成方法研究   总被引:2,自引:1,他引:2       下载免费PDF全文
针对差异性是集成学习的必要条件,研究了基于k-means聚类技术提高神经网络分类器集成差异性的方法。通过训练集并使用神经网络分类器学习算法训练许多分类器模型,在验证集中利用每个分类器的分类结果作为聚类的数据对象;然后应用k-means聚类方法对这些数据聚类,在聚类结果的每个簇中选择一个分类器代表模型,以此构成集成学习的成员;最后应用投票方法实验研究了这种提高集成学习差异性方法的性能,并与常用的集成学习方法bagging、adaboost进行了比较。  相似文献   

17.
针对微阵列基因表达数据高维小样本、高冗余且高噪声的问题,提出一种基于FCBF特征选择和集成优化学习的分类算法FICS-EKELM。首先使用快速关联过滤方法FCBF滤除部分不相关特征和噪声,找出与类别相关性较高的特征集合;其次,运用抽样技术生成多个样本子集,在每个训练子集上利用改进乌鸦搜索算法同步实现最优特征子集选择和核极限学习机KELM分类器参数优化;然后基于基分类器构建集成分类模型对目标数据进行分类识别;此外运用多核平台多线程并行方式进一步提高算法计算效率。在六组基因数据集上的实验结果表明,本文算法不仅能用较少特征基因达到较优的分类效果,并且分类结果显著高于已有和相似方法,是一种有效的高维数据分类方法。  相似文献   

18.
唐寿洪  朱焱  杨凡 《计算机科学》2015,42(1):239-243
网页作弊不仅造成信息检索质量下降,而且给互联网的安全也带来了极大的挑战.提出了一种基于Bag-ging-SVM集成分类器的网页作弊检测方法.在预处理阶段,首先采用K-means方法解决数据集的不平衡问题,然后采用CFS特征选择方法筛选出最优特征子集,最后对特征子集进行信息熵离散化处理.在分类器训练阶段,通过Bagging方法构建多个训练集并分别对每个训练集进行SVM学习来产生弱分类器.在检测阶段,通过多个弱分类器投票决定测试样本所属类别.在数据集WEBSPAM-UK2006上的实验结果表明,在使用特征数量较少的情况下,本检测方法可以获得非常好的检测效果.  相似文献   

19.
目前客户流失预测任务中常用的模型集成方法采用传统机器学习模型作为基学习器。而传统机器学习模型相比于深度学习模型,存在无法对时序数据进行有效建模、特征工程对模型效果影响较大等缺点。针对这些问题,提出基于LSTM的模型集成方法。采用LSTM作为基学习器进行时序数据建模;改进snapshot模型集成方法,增加样本权重调整方法,在训练单个LSTM模型的过程中得到多个具有不同权值的模型;利用得到的多个模型构造新数据集,在新数据集上训练逻辑回归模型。实验结果表明,该方法相比于单模型LSTM,可以在仅花费其1.8倍训练时间的前提下,将查准率和PR-AUC分别提升4.67%和3.74%,显著提高了客户流失预测效果。  相似文献   

20.
移动设备上难以获取大量标签样本,而训练不足导致分类模型在人体动作识别上表现欠佳.针对这一问题,提出一种基于多视图半监督集成学习的人体动作识别算法.首先,利用两种内置传感器收集的数据构建两个特征视图,将两个视图和两种基分类器进行组合构建协同学习框架;然后,根据多分类任务重新定义置信度,结合主动学习思想在迭代过程中控制预测...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号