首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
在大数据时代,在城市复杂交通环境中,实现实时、准确的交通流预测,是实现智能交通系统的必要前提。提出了一种在Spark平台上基于梯度优化决策树的分布式城市交通流预测模型(distributed urban traffic prediction with GBDT,DUTP-GBDT);并提出了分布式情况下梯度优化决策树模型实现的优化方法,包括切分点抽样、特征装箱和逐层训练三种,提高了分布式情况下梯度优化决策树训练效率。基于Spark分布式计算平台高效、可靠、弹性可扩展的优势,以及梯度优化决策树模型准确率较高和时间复杂度较低的优点,利用时间特征、道路状况特征以及天气特征等特征参数,建立了DUTP-GBDT模型,实现了实时、准确的交通流预测。通过与GABP、GA-KNN、MSTAR等模型的对比,证明了利用Spark平台,DUTP-GBDT模型在分布式环境下准确率和训练速度方面均有所提高,符合城市交通流预测系统的各项要求。  相似文献   

2.
大数据时代催生了互联网流量的指数级增长,为了有效地管控网络资源,提高网络安全性,需要对网络流量进行快速、准确的分类,这就对流量分类技术的实时性提出了更高的要求。目前,国内外的网络流量分类研究大多是在单机环境下进行的,计算资源有限,难以应对高速网络中的 (准) 实时流量分类任务。本文在充分借鉴已有研究成果的基础上,吸收当前最新的思想和技术,基于Spark 平台,有机结合其流处理框架 Spark Streaming 与机器学习算法库 MLlib,提出一种大规模网络流量准实时分类方法。实验结果表明,该方法在保证高分类准确率的同时,也具有很好的实时分类能力,可以满足实际网络中流量分类任务的实时性需求。  相似文献   

3.
传统的基于DSP与FPGA的数字信号处理技术更加适用于实时信号处理,且受到数据规模和频率分辨率的限制,使得其不适于进行大规模数据下的离线式数据处理、分析与挖掘的应用.目前工业大数据分析平台可以采用Spark作为实时信号处理和离线信号处理加速的计算引擎,但该分析平台缺少适用于分布式并行计算引擎的数字信号处理等数学计算的解决方案.基于此,本文提出了基于Spark的分布式数字信号处理算法库,为面向分析的工业大数据应用场景提供支撑.本文介绍了该算法库的架构设计,并以FFT算法和DFT算法为例介绍了传统数字信号处理算法在Spark下的分布式实现,最后对算法库进行了正确性测试和性能分析.结果表明该算法库能够正确完成数字信号处理的功能,同时可以满足工业大数据分析平台对于大规模数据集进行数字信号处理的需求.  相似文献   

4.
针对传统决策树分类算法需要依靠人工构造特征才能实现对数据进行分类的问题, 以及其在处理海量天文数据时所面临的处理速度和资源分配瓶颈问题,结合深度学习强大的特征学习能力和Spark高效的数据处理性能,提出了一种基于Spark平台的深度感知决策树并行化算法,并将其应用于天文恒星/星系分类问题中。研究结果表明,该算法具有很好的可伸缩性,可以通过增加Spark集群计算节点的数量,来减少分类模型所需的训练时间和增强其对海量天文数据的处理能力。并且,其因同时具备强大的特征学习和分类能力而在恒星星系分类问题上可以获得比传统决策树更高的分类准确率。  相似文献   

5.
在大数据环境下,为了提高航班延误预测精确度和数据处理速度,提出基于Spark框架下处理海量数据方法。本文使用决策树算法对航班数据进行分析,预测航班的延误情况,并与使用支持向量机,Logistic回归分类算法的预测结果进行比较。结果证明决策树算法具有较高的准确率和灵敏度,表明决策树算法可以应用到航班延误预测中,给航空机构提供数据支持。  相似文献   

6.
肖圣龙  陈昕  李卓 《计算机应用》2017,37(10):2794-2798
大数据时代下,社会安全事件呈现出数据多样化、数据量快速递增等特点,社会安全事件的事态与特性分析决策面临巨大的挑战。高效、准确识别社会安全事件中的攻击行为的类型,并为社会安全事件处置决策提供帮助,已经成为国家与网络空间安全领域的关键性问题。针对社会安全事件攻击行为分类,提出一种基于Spark平台的分布式神经网络分类算法(DNNC)。DNNC算法通过提取攻击行为类型的相关属性作为神经网络的输入数据,建立了各属性与攻击类型之间的函数关系并生成分布式神经网络分类模型。实验结果表明,所提出DNNC算法在全球恐怖主义数据库所提供的数据集上,虽然在部分攻击类型上准确率有所下降,但平均准确率比决策树算法提升15.90个百分点,比集成决策树算法提升8.60个百分点。  相似文献   

7.
BP算法(反向传播算法)以其良好的非线性逼近能力、泛化能力以及实用性成为了人工神经网络训练算法中应用最为广泛的算法.但同时使用BP算法又存在收敛速度较慢、易陷入局部极小值等问题.为了将BP算法用于大规模数据分类问题,采用MapReduce思想,将大数据集切分成若干小的数据集来并行加速处理,同时引入Bagging算法的思想来综合并行结果,提高分类的准确率.通过在各个节点上根据子数据集独立地训练各个BP神经网络,直至各网络收敛,再将各节点上的网络收集起来进行集成,形成最终的分类器.基于Spark平台的实验表明,本文提出的算法具有良好的并行加速性能,且具有较高的分类准确率.  相似文献   

8.
赵晓峰  叶震 《计算机应用》2007,27(5):1041-1043
传统的决策树分类方法(如ID3和C4.5)对于相对小的数据集是很有效的。但是,当这些算法用于入侵检测这样的非常大的数据时,其有效性就显得不足。采用了一种基于随机模型的决策树算法, 在保证分类准确率的基础上,减少了对系统资源的占用,并设计了基于此算法的分布式入侵检测模型。最后通过对比试验表明该模型在对计算机入侵数据的分类上有着出色的表现。  相似文献   

9.
为了方便油藏数据特征的分析和石油的勘探开发过程,本文利用Spark并行计算框架分析油藏数据,并通过数据挖掘算法分析油藏属性之间的潜在关系,对油藏的不同层段进行了分类和预测.本文的主要工作包括:搭建Spark分布式集群和数据处理、分析平台,Spark是流行的大数据并行计算框架,相对传统的一些分析方法和工具,可以实现快速、准确的数据挖掘任务;根据油藏数据的特点建立多维异常检测函数,并新增渗孔比判别属性Pr;在处理不平衡数据时,针对逻辑回归分类提出交叉召回训练模型,并优化代价函数,针对决策树,提出KR-SMOTE对小类别样本进行过采样扩充,这两种方法都可以有效处理数据不平衡问题,提高分类精度.  相似文献   

10.
为满足现代社会对气象预警预报服务的需求,研发了Android系统平台下实时天气预测和异常天气预警系统。根据决策树算法中的C4.5算法,解决天气预警分类问题。该方法通过提取训练样本中最大增益率属性作为属性特征建立决策树,经剪枝后得到天气预警评估的决策树模型,并对此模型进行分析和应用。实验结果表明这种方法在分类评估准确率上具有优势,分类正确率达到85.8%.  相似文献   

11.
由于电力调度网出现任何网络故障都可能发生极度严重的事故,因此具有的极高可靠性及安全性的要求.而当前传统的网络监测系统在面对大数据量时,其实时处理能力和扩展能力都无法满足需求.因此对实时产生的大规模各类型数据的分析处理则需要一种专门的实时数据分析平台完成.本文结合电力调度信息网络的特点以及监测准确性及实时性的需求,构建出一个基于流计算的数据处理分析平台,以Apache Spark中的Spark Streaming为代表的开源流计算框架,加入如Kafka分布式消息队列、Redis内存数据库等组件,为数据分析平台提供稳定高效的数据来源和数据服务接口,从而实现适用于电力调度网的各类海量数据的实时分析处理完成流量异常监测场景.  相似文献   

12.
网络流量的决策树分类   总被引:2,自引:1,他引:1  
应用识别与流量分类是网络管理、安全、研究等相关事务的必要前提.随着网络的高速发展以及各种新型应用的不断涌现,基于分组传输层端口号和深度分组解析的分类技术难以满足需求.本文验证网络流量的统计特性可以有效地区分不同应用,提出一种基于C4.5决策树分类器的有监督网络流量分类方法,讨论boosting增强方法和特征选择两种改进.实验结果表明,C4.5分类器的训练复杂度适中,准确率高且分类速度快;增强方法可以进一步提高分类器的准确率,代价是训练时间大幅提高和分类时间稍微减慢;特征选择算法则提高分类速度而稍微降低准确率.  相似文献   

13.
隐私保护的分布式决策树分类算法的研究*   总被引:1,自引:0,他引:1  
针对分布式决策树构造过程中的隐私保护问题,引入安全多方计算方法设计了可以保护隐私的分布式C4.5决策树分类算法。该算法适用于数据集垂直分布和水平分布两种情况,同时提出了一种新的隐私保护程度的度量方法。实验结果证明设计的隐私保护分布式决策树分类算法不仅很好地保护了原始数据不泄露,同时保持了较高的分类精度。  相似文献   

14.
通过研究各种决策树分类算法的并行方案后,并行设计C4.5算法.同时根据Hadoop云平台的MapReduce编程模型,详细描述C4.5并行算法在MapReduce编程模型下的实现及其执行流程.最后,对输入的海量文本数据进行分类,验证了算法的高效性和扩展性.  相似文献   

15.
为应对大数据时代对带时间窗车辆路径问题(VRPTW)的实时求解要求,提出基于Spark平台的改进蚁群算法.在算法层面,利用改进的状态转移规则和轮盘赌选择机制构建初始解,结合k-opt邻域搜索进行路径构建优化,改进最大最小蚁群算法中的信息素更新策略;在实现层面,利用Spark提供的API对蚁群RDD进行操作,实现蚁群分布式并行求解.在标准算例Solomon benchmark和Gehring&Homberger benchmark的实验结果表明,该算法在大规模问题的求解精度和速度上有明显提升.  相似文献   

16.
分类技术是数据挖掘的重要分支,常见的分类方法有决策树、统计方法、机器学习方法、BP神经网络方法等.本文针对标准BP网络存在的一些缺陷,结合一种进化算法微粒群(PSO)算法,建立了一种用于数据分类的网络模型.该模型充分利用微粒群算法的全局寻优特性,优化BP网络的权值和阈值,既保证了BP网络能收敛到全局最优解,加快了BP网络的收敛速度和收敛精度,又提高了待分类数据的识别准确率.仿真实验结果表明此模型较BP网络具有较好的分类识别性能.  相似文献   

17.
基于C4.5决策树的流量分类方法   总被引:18,自引:1,他引:17  
徐鹏  林森 《软件学报》2009,20(10):2692-2704
近年来,利用机器学习方法处理流量分类问题成为网络测量领域一个新兴的研究方向.在现有研究中,朴素贝叶斯方法及其改进算法以其实现简单、分类高效的特点而被广泛应用.但此类方法过分依赖于样本在样本空间的分布,具有潜在的不稳定性.为此,引入C4.5决策树方法来处理流量分类问题.该方法利用训练数据集中的信息熵来构建分类模型,并通过对分类模型的简单查找来完成未知网络流样本的分类.理论分析和实验结果都表明,利用C4.5决策树来处理流量分类问题在分类稳定性上均具有明显的优势.  相似文献   

18.
以图计算形式研究社交网络由来已久,但对于如何提升图计算应用于大规模社交网络的计算速度和扩展性,一直是研究的难点。谱图论的应用为社交网络在图计算方面的研究带来新的研究热点,谱图分割为社交网络社区划分带来基于结构的支撑。为了解决谱图论在处理大规模社交网络时存在计算缓慢、内存溢出等问题,本文提出了谱聚类改进算法结合矩阵方式在并行环境下的处理方法。首先,利用Spark对网络数据进行并行化预处理,将社交网络以图结构表示,再将图转化为Spark分布式稀疏矩阵。然后,将谱聚类改进算法在Spark环境下,实现并行化社交网络社区快速划分,并以分布式方式持久化存储源数据、中间计算数据和计算结果,提高图计算在社交网络中的可靠性。最后,通过实验证明并行化图计算方法能有效提高计算速度和扩展性,支持大规模社交网络的挖掘分析,实现并行算法下高并发、高吞吐的特点。  相似文献   

19.
基于决策树的流量分类方法*   总被引:4,自引:1,他引:3  
徐鹏  林森  刘琼 《计算机应用研究》2008,25(8):2484-2487
近年来,利用机器学习方法处理流量分类问题已成为网络测量领域一个新兴的研究方向。在目前研究中应用较多的是朴素贝叶斯方法及其改进算法,但这些基于贝叶斯定理的分类方法过于依赖样本空间的分布,具有潜在的不稳定性。为此,引入C4.5决策树方法来处理流量分类问题。C4.5决策树方法利用信息熵来构建分类模型,无须假设先验概率的稳定。实验结果表明C4.5决策树方法可以有效避免网络流分布变化所带来的影响。  相似文献   

20.
针对聚类算法需要处理数据集的规模越来越大、时效性要求越来越高,对算法的大数据适应能力和性能要求更高的问题,提出一种在Spark分布式内存计算平台下的模糊C均值(FCM)算法Spark-FCM。首先对矩阵通过水平分割实现分布式存储,不同向量存储在不同节点;然后基于FCM算法的计算特点,设计了分布式和缓存敏感的常用矩阵操作,包括乘法、转置和加法等;最后基于矩阵操作和Spark平台特点,设计了Spark-FCM算法,主要数据结构采用分布式矩阵存储,具有节点间数据移动少和每个步骤分布式计算特点。通过在单机和集群环境下测试,算法具有良好的可扩展性,并可以适应大规模数据集,算法性能与数据量成线性关系,集群环境下性能比单机提高2~3倍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号