首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
针对传统数据处理技术存在模型过时、泛化能力减弱以及并未考虑多源数据安全性的问题,提出一种面向区块链的在线联邦增量学习算法。该算法将集成学习与增量学习应用到联邦学习的框架下,使用stacking集成算法来整合多方本地模型,且将模型训练阶段的模型参数上传至区块链并快速同步,使得在建立的全局模型准确率仅下降1%的情况下,模型在训练阶段与存储阶段的安全性均得到了提升,降低了数据存储与模型参数传输的成本,同时也降低了因模型梯度更新造成数据泄漏的风险。实验结果表明,在公开的数据集上进行训练,各时间段内模型的准确度均在91.5%以上,且方差均低于10-5;与传统整合数据训练模型相比,该模型在准确率上略有下降,但能够在保证模型准确率的同时提高数据与模型的安全性。  相似文献   

2.
考虑分布式系统质量预测中的大数据处理问题,提出一种基于分布式并行分层极限学习机(distributed parallel hierarchical extreme learning machine, dp-HELM)的大数据多模式质量预测模型。根据Map-Reduce框架,将高效的极限学习机算法转化为分布式并行建模形式。由于分层极限学习机(hierarchical extreme learning machine, HELM)的深度学习网络结构在特征上具备的预测精度优势,结合深层隐藏层的ELM自动编码器,进一步开发了dp-HELM。通过dp-ELM和dp-HELM以同步并行方式进一步训练分布式并行K均值划分的过程模式,利用贝叶斯模型融合技术来集成用于在线预测的局部模型。将所提出的预测模型应用于预脱碳装置中残留的二氧化碳含量估算,实验结果表明了该方法的有效性与可行性。  相似文献   

3.
集成多个传感器的智能片上系统( SoC)在物联网得到了广泛的应用.在融合多个传感器数据的分类算法方面,传统的支持向量机( SVM)单分类器不能直接对传感器数据流进行小样本增量学习.针对上述问题,提出一种基于Bagging-SVM的集成增量算法,该算法通过在增量数据中采用Bootstrap方式抽取训练集,构造能够反映新信息变化的集成分类器,然后将新老分类器集成,实现集成增量学习.实验结果表明:该算法相比SVM单分类器能够有效降低分类误差,提高分类准确率,且具有较好的泛化能力,可以满足当下智能传感器系统基于小样本数据流的在线学习需求.  相似文献   

4.
为了提高预测的准确性,文中结合机器学习中堆积(Stacking)集成框架,组合多个分类器对标记分布进行学习,提出基于标记分布学习的异态集成学习算法(HELA-LDL).算法构造两层模型框架,通过第一层结构将样本数据采用组合方式进行异态集成学习,融合各分类器的学习结果,将融合结果输入到第二层分类器,预测结果是带有置信度的标记分布.在专用数据集上的对比实验表明,HELA-LDL可以发挥各种算法在不同场景下的性能较优,稳定性分析进一步说明算法的有效性.  相似文献   

5.
针对传统基于相似度的离群点检测算法在高维不均衡数据集上效果不够理想的问题,提出一种新颖的基于随机投影与集成学习的离群点检测(ensemble learning and random projection-based outlier detection,EROD)框架。算法首先集成多个随机投影方法对高维数据进行降维,提升数据多样性;然后集成多个不同的传统离群点检测器构建异质集成模型,增加算法鲁棒性;最后使用异质模型对降维后的数据进行训练,训练后的模型经过两次优化组合以降低泛化误差,输出最终的对象离群值,离群值高的对象被算法判定为离群点。分别在四个不同领域的高维不均衡真实数据集上进行对比实验,结果表明该算法与传统离群点检测算法和基于集成学习的离群点检测算法相比,在AUC和precision@n值上平均提高了3.6%和14.45%,证明EROD算法具有处理高维不均衡数据异常的优势。  相似文献   

6.
现有无线联邦学习框架缺乏对实际的分布式高速车联网(IoV)场景的有效支持。针对该场景下的分布式学习问题,提出了一种基于随机网络拓扑模型的分布式训练算法——分簇式无线联邦学习算法(C-WFLA)。首先,该算法基于高速公路场景下的车辆分布情况设计网络模型;其次,该算法考虑了用户端进行上行数据传输时的路径衰落、瑞利衰落等因素;最后,该算法设计了基于分簇式训练的无线联邦学习方法。利用所提算法对手写体识别模型进行了训练与测试,仿真结果表明:在信道状态较好、用户发射功率受限较小的情况下,传统无线联邦学习算法与C-WFLA在相同的训练条件下损失函数均能收敛至相近的数值,且C-WFLA收敛更快;而在信道状态较差、用户发射功率受限较大的情况下,C-WFLA损失函数收敛值相较于传统的集中式算法可以降低10%~50%。可见,C-WFLA更有助于高速IoV场景下的模型训练。  相似文献   

7.
宋创创  方勇  黄诚  刘亮 《计算机应用》2018,38(5):1383-1388
针对现有的口令评估模型通用性差,没有一个可以对从简单口令到非常复杂口令都适用的评估模型的问题,设计了一种基于多模型的集成学习的口令评估模型。首先,使用真实的口令训练集训练多个现有的口令评估模型作为子模型;其次,将多个经过训练的子模型作为基学习器进行集成学习,采用偏弱项投票法的结合策略实现各个子模型的优势集成;最后,实现一个以高准确性为前提的通用口令评估模型。实验中使用网络泄露的真实用户口令数据集作为实验数据,实验结果表明,基于多模型集成学习模型针对不同复杂程度的口令进行口令强度评估,其评估结果准确率高、通用性强,所提模型在口令评估方面具有较好的适用性。  相似文献   

8.
刘阳  张扬扬  周号益 《计算机应用》2022,42(11):3337-3345
针对流式数据处理系统Flink无法高效处理单点故障的问题,提出了一种基于增量状态和备份的故障容错系统Flink+。首先,提前建立备份算子和数据通路;然后,对数据流图中的输出数据进行缓存,必要时使用磁盘;其次,在系统快照时进行任务状态同步;最后,在系统故障时使用备份任务和缓存的数据恢复计算。在系统实验测试中,Flink+在无故障运行时没有显著增加额外容错开销;而在单机和分布式环境下处理单点故障时,与Flink系统相比,所提系统在单机8任务并行度下故障恢复时间减少了96.98%,在分布式16任务并行度下故障恢复时间减少了88.75%。实验结果表明,增量状态和备份方法一起使用可以有效减少流式系统单点故障的恢复时间,增强系统的鲁棒性。  相似文献   

9.
针对传统机器学习方法在完成分类任务时多数存在人工标记成本较高、泛化能力较弱的问题,提出一种标记组合半监督学习算法。基于集成学习的思想,利用有标记数据训练多个弱模型并进行组合,增强模型的泛化能力。对无标记数据进行预测,生成有噪声的标记并组合建模。在风险最小化的框架下,使模型收敛达到最优。实验结果表明,在2种有监督场景下与现有的支持向量机、分类与回归树、神经网络等算法相比,该算法具有较优的泛化能力。  相似文献   

10.
集成学习通过构建具有一定互补功能的多个分类器来完成学习任务,以减少分类误差。但是当前研究未能考虑分类器的局部有效性。为此,在基于集成学习的框架下,提出了一个分层结构的多分类算法。该算法按预测类别分解问题,在分层的基础上,集成多个分类器以提高分类准确度。在美国某高校招生录取这一个实际应用的数据集及3个UCI数据集上进行实验,实验结果验证了该算法的有效性。  相似文献   

11.
In the big data era, extreme learning machine (ELM) can be a good solution for the learning of large sample data as it has high generalization performance and fast training speed. However, the emerging big and distributed data blocks may still challenge the method as they may cause large-scale training which is hard to be finished by a common commodity machine in a limited time. In this paper, we propose a MapReduce-based distributed framework named MR-ELM to enable large-scale ELM training. Under the framework, ELM submodels are trained parallelly with the distributed data blocks on the cluster and then combined as a complete single-hidden layer feedforward neural network. Both classification and regression capabilities of MR-ELM have been theoretically proven, and its generalization performance is shown to be as high as that of the original ELM and some common ELM ensemble methods through many typical benchmarks. Compared with the original ELM and the other parallel ELM algorithms, MR-ELM is a general and scalable ELM training framework for both classification and regression and is suitable for big data learning under the cloud environment where the data are usually distributed instead of being located in one machine.  相似文献   

12.
Apache Flink是现在主流的大数据分布式计算引擎之一,其中任务调度问题是分布式计算系统中的关键问题。由于集群的异构性以及不同算子复杂度不同,大数据计算系统Flink中不可避免地会出现负载不均的情况,针对这种问题,提出了基于资源反馈的负载均衡任务调度算法RFTS。通过实时资源监控、区域划分和基于人工萤火虫优化的任务调度算法3个模块,把负载过重的机器中处于等待状态的任务分配给负载较轻的机器,来实现集群的负载均衡,提高系统集群利用率和执行效率。最后通过基于TPC-C和TPC-H数据集的实验结果表明,RFTS算法从执行时间和吞吐量2个方面有效提升了Apache Flink计算系统的性能。  相似文献   

13.
重点研究了极限学习机ELM对行为识别检测的效果。针对在线学习和行为分类上存在计算复杂性和时间消耗大的问题,提出了一种新的行为识别学习算法(ELM-Cholesky)。该算法首先引入了基于Cholesky分解求ELM的方法,接着依据在线学习期间核函数矩阵的更新特点,将分块矩阵Cholesky分解算法用于ELM的在线求解,使三角因子矩阵实现在线更新,从而得出一种新的ELM-Cholesky在线学习算法。新算法充分利用了历史训练数据,降低了计算的复杂性,提高了行为识别的准确率。最后,在基准数据库上采用该算法进行了大量实验,实验结果表明了这种在线学习算法的有效性。  相似文献   

14.
多示例多标签学习是一种新型的机器学习框架。在多示例多标签学习中,样本以包的形式存在,一个包由多个示例组成,并被标记多个标签。以往的多示例多标签学习研究中,通常认为包中的示例是独立同分布的,但这个假设在实际应用中是很难保证的。为了利用包中示例的相关性特征,提出了一种基于示例非独立同分布的多示例多标签分类算法。该算法首先通过建立相关性矩阵表示出包内示例的相关关系,每个多示例包由一个相关性矩阵表示;然后建立基于不同尺度的相关性矩阵的核函数;最后考虑到不同标签的预测对应不同的核函数,引入多核学习构造并训练针对不同标签预测的多核SVM分类器。图像和文本数据集上的实验结果表明,该算法大大提高了多标签分类的准确性。  相似文献   

15.
王长宝  李青雯  于化龙 《计算机科学》2017,44(12):221-226, 254
针对在样本类别分布不平衡场景下,现有的主动学习算法普遍失效及训练时间过长等问题,提出采用建模速度更快的极限学习机,即ELM(Extreme Learning Machine)作为主动学习的基分类器,并以加权ELM算法用于主动学习过程的平衡控制,进而在理论上推导了其在线学习的过程,大幅降低了主动学习的时间开销,并将最终的混合算法命名为AOW-ELM算法。通过12个基准的二类不平衡数据集验证了该算法的有效性与可行性。  相似文献   

16.
针对目前神经网络在处理类似生物信息数据库这类较大规模数据时,遇到的大规模数据处理耗时过长、内存资源不足等问题.在分析当前神经网络分布式学习的基础上,提出了一种新的基于Agent和切片思想的分布式神经网络协同训练算法.通过对训练样本和训练过程的有效切分,整个样本集的学习被分配到一个分布式神经网络集群环境中进行协同训练,同时通过竞争筛选机制,使得学习性能较好的训练个体能有效地在神经网络群中迁移,以获得较多的资源进行学习.理论分析论证了该方法不仅能有效提高神经网络向目标解收敛的成功率,同时也具有较高的并行计算性能,以加快向目标解逼近的速度.最后,该方法被应用到了蛋白质二级结构预测这一生物信息学领域的问题上.结果显示,该分布式学习算法不仅能有效地处理大规模样本集的学习,同时也改进了训练得到的神经网络性能.  相似文献   

17.
增量式支持向量机学习算法是一种重要的在线学习方法。传统的单增量支持向量机学习算法使用一个数据样本更新支持向量机模型。在增加或删除的数据样本点较多时,这种模型更新模式耗时巨大,具体原因是每个被插入或删除的样本都要进行一次模型参数更新的判断。该文提出一种基于参数规划的多重增量式的支持向量机优化训练算法,使用该训练算法,多重的支持向量机的训练时间大为减少。在合成数据集及真实测试数据集上的实验结果显示,该文提出的方法可以大大降低多重支持向量机训练算法的计算复杂度并提高分类器的精度。  相似文献   

18.
低速率分布式拒绝服务攻击针对网络协议自适应机制中的漏洞实施攻击,对网络服务质量造成了巨大威胁,具有隐蔽性强、攻击速率低和周期性的特点.现有检测方法存在检测类型单一和识别精度低的问题,因此提出了一种基于混合深度学习的多类型低速率DDoS攻击检测方法.模拟不同类型的低速率DDoS攻击和5G环境下不同场景的正常流量,在网络入...  相似文献   

19.
基于流形学习的多示例回归算法   总被引:2,自引:0,他引:2  
詹德川  周志华 《计算机学报》2006,29(11):1948-1955
多示例学习是一种新型机器学习框架,以往的研究主要集中在多示例分类上,最近多示例回归受到了国际机器学习界的关注.流形学习旨在获得非线性分布数据的内在结构,可以用于非线性降维.文中基于流形学习技术,提出了用于解决多示例同归问题的Mani MIL算法.该算法首先对训练包中的示例降维,利用降维结果出现坍缩的特性对多示例包进行预测.实验表明,Mani MIL算法比现有的多示例算法例如Citation-kNN等有更好的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号