共查询到19条相似文献,搜索用时 46 毫秒
1.
随着现在各种业务系统的复杂多样化,数据分析的实效性要求也变得越来越高,过去的离线分析很多已经不适用于当前的生产需要,针对于大数据的实时分析变得越来越重要.以当前热门的Flink流处理架构为解析平台,构建了分布式实时采集解析流数据处理架构,针对于不同的数据流,只需要更新配置就可以实现业务数据的解析,极大地减少了代码开发量... 相似文献
2.
针对现有的僵尸网络研究工作所检测的僵尸网络生命周期的阶段较为单一的问题,提出基于集成学习的僵尸网络在线检测方法。首先,细粒度地标记僵尸网络多个阶段的流量,生成僵尸网络数据集;其次,结合多种特征选择算法生成包含23个特征的重要特征集和包含28个特征的次重要特征集,基于Stacking集成学习技术集成多种深度学习模型,并针对不同的初级分类器提供不同的输入特征集,得到僵尸网络在线检测模型;最后,将僵尸网络在线检测模型部署在网络入口处在线检测多种僵尸网络。实验表明,所提基于集成学习的僵尸网络在线检测方法能够有效地检测出多个阶段的僵尸网络流量,恶意流量检测率可达96.47%。 相似文献
3.
研究了基于模型共享的集成学习分布式异常检测模型,采用多数投票、边界扩展、平均叠加和距离加权4种不同的集成学习方法得到全部的局部模型;采用交换本地数据挖掘模型的方式来实现数据共享,从而构造出一个总体的集成学习模型。从全局的观点检测异常,减少了集中式检测所需数据的传输量,有效保护了数据提供者的隐私性。仿真实验结果表明,该方法的检测性能与集中式检测的性能相当,甚至更好。 相似文献
4.
针对大数据流式计算平台拓扑中因各关键节点上任务间不同类型的通信方式导致的通信开销较大问题,提出一种Flink环境下的任务调度策略。通过各任务间数据流大小确定拓扑边权重,将有向无环图转化为拓扑关键路径模型,在保证关键路径上节点负载差异较小的同时,最小化关键任务的节点间通信开销。实验结果表明,该算法与Flink平台现有的任务调度策略相比,在WordCount和TwitterSentiment作业执行过程中计算平均时延降低了13.09%,有效提升了系统性能。 相似文献
5.
基于多核集成的在线半监督学习方法 总被引:1,自引:1,他引:1
在很多实时预测任务中,学习器需对实时采集到的数据在线地进行学习.由于数据采集的实时性,往往难以为采集到的所有数据提供标记.然而,目前的在线学习方法并不能利用未标记数据进行学习,致使学得的模型并不能即时反映数据的动态变化,降低其实时响应能力.提出一种基于多核集成的在线半监督学习方法,使得在线学习器即使在接收到没有标记的数据时也能进行在线学习.该方法采用多个定义在不同RKHS中的函数对未标记数据预测的一致程度作为正则化项,在此基础上导出了多核集成在线半监督学习的即时风险函数,然后借助在线凸规划技术进行求解.在UCl数据集上的实验结果以及在网络入侵检测上的应用表明,该方法能够有效利用数据流中未标记数据来提升在线学习的性能. 相似文献
6.
随着不断扩张的数据量,传统推荐系统面临着计算效率低、实时推荐速度较慢、推荐效果不够理想等情况。针对上述问题,使用新一代流式计算引擎ApacheFlink作为推荐的计算平台,结合Hadoop、Hive、Redis、ZooKeeper和Kafka等大数据开源技术构建分布式推荐系统。同时,使用Alink提高离线推荐算法在分布式场景的效率;改进实时推荐算法,利用用户最近历史评分,融入时间衰减函数,生成TOP-N实时推荐列表。结果表明,推荐结果的准确率、召回率以及归一化折损累计增益等指标都有较好地提升,改进后算法有更好的推荐效果。 相似文献
7.
针对视频目标检测问题,提出一种新的在线集成学习方法。该方法把目标检测看成两类分类问题,首先用少量已标注样本离线训练一个初始集成分类器,然后在检测目标的同时通过跟踪过滤虚警目标,并通过样本置信度作进一步验证自动标注样本,最后通过在线集成学习方法更新级联分类器。该方法通过在线调整级联分类器,提高分类器对目标环境变化的适应能力,在大量视频序列上进行实验验证,并与现有在线集成学习方法进行比较,结果表明,通过该方法训练得到的检测器不但能够很好地应对目标特征的变化,也能在出现目标遮挡及背景干扰下稳定地检测出目标,具有较好的适应性及鲁棒性。 相似文献
8.
9.
针对流数据中概念漂移发生后,在线学习模型不能对分布变化后的数据做出及时响应且难以提取数据分布的最新信息,导致学习模型收敛较慢的问题,提出一种基于在线集成的概念漂移自适应分类方法(adaptive classification method for concept drift based on online ensemble,AC_OE). 一方面,该方法利用在线集成策略构建在线集成学习器,对数据块中的训练样本进行局部预测以动态调整学习器权重,有助于深入提取漂移位点附近流数据的演化信息,对数据分布变化进行精准响应,提升在线学习模型对概念漂移发生后新数据分布的适应能力,提高学习模型的实时泛化性能;另一方面,利用增量学习策略构建增量学习器,并随新样本的进入进行增量式的训练更新,提取流数据的全局分布信息,使模型在平稳的流数据状态下保持较好的鲁棒性. 实验结果表明,该方法能够对概念漂移做出及时响应并加速在线学习模型的收敛速度,同时有效提高学习器的整体泛化性能. 相似文献
10.
11.
数据流是一组随时间连续到来的数据序列,在数据流不断产生的过程中,由于各种因素的影响,数据分布随时间推移可能以不可预测的方式发生变化,这种现象称为概念漂移.在漂移发生后,当前模型需要及时响应数据流中的实时分布变化,并有效处理不同类型的概念漂移,从而避免模型泛化性能下降.针对这一问题,提出一种基于主动–被动增量集成的概念漂移适应方法 (CDAM-APIE).该方法首先使用在线增量集成策略构建被动集成模型,对新样本进行实时预测以动态更新基模型权重,有利于快速响应数据分布的瞬时变化,并增强模型适应概念漂移的能力.在此基础上,利用增量学习和概念漂移检测技术构建主动基模型,提升模型在平稳数据流状态下的鲁棒性和漂移后的泛化性能.实验结果表明, CDAM-APIE能够对概念漂移做出及时响应,同时有效提高模型的泛化性能. 相似文献
12.
分布式环境下大规模维表关联技术是当前在线大数据分析的关键技术之一,其广泛应用于实时推荐、实时分析等领域.维表关联是指将流数据和离线存储的维表数据进行关联,并根据这种关联进行数据处理.首先,对已有的维表连接技术方案进行了研究,调研了相关的优化技术和主流分布式引擎的设计路线,主要通过优化维表数据查询提高性能,但传统的优化方... 相似文献
13.
推荐算法是数据挖掘中应用最广泛的算法之一,目前的推荐算法主要是针对静态数据的,缺乏对动态数据的适应性,基于数据流的推荐算法是解决这一问题的方法。针对目前在分布式平台中采用参数服务器控制模型训练存在的滞后梯度和掉队者问题,提出了一种新的使用点对点参数交换网络代替参数服务器的方法,并在训练过程中引入遗忘策略和异常评分检测能力。在新的分布式流计算框架Flink上进行设计实现,并在经典的MovieLens-1m数据集上进行了实验。实验结果表明,该算法能够在保证推荐准确率的同时,降低一半通讯开销。 相似文献
14.
针对大数据流式计算平台原生的调度机制存在计算负载分配不均衡、资源利用率低的问题,提出异构环境下基于禁忌搜索算法的负载均衡策略,并将其应用于Apache Flink平台。首先,通过构建作业拓扑模型将流式计算作业的拓扑结构抽象为有向无环图(directed acyclic graph,DAG),并将每个任务槽(task slot)抽象为节点,为计算节点的性能评估奠定基础;其次,通过建立性能评估模型将有向无环图中带性能权值的节点导入性能评估模型,进行归一化处理得到节点性能的优劣;再将评估参数传入禁忌调度算法(tabu search for schedule,TBS)进行作业路径优化,从而得出最优作业路径;最后,使用Flink平台提供的CustomPatitionerWrapper接口将数据分配到最优作业路径包含的节点中,完成计算负载的均衡分配,从而提升Flink平台的整体性能。实验结果表明:通过禁忌调度算法优化后的负载均衡策略与原生的Flink平台相比,平均计算延迟降低了10~20 ms,资源利用率显著提高,平均吞吐量提升约15%,有效证明了负载均衡策略的有效性和优化效果。 相似文献
15.
Apache Flink是目前最流行的流式计算平台之一,已经在工业界得到了广泛应用.复杂事件处理是流式计算的一种重要使用场景, Apache Flink平台定义并实现了一种复杂事件处理语言(简称FlinkCEP). FlinkCEP语法特性丰富,不仅包括常见的过滤、连接、循环等操作,还包括迭代条件、匹配筛选策略等高级特性. FlinkCEP语义复杂,尚缺乏语言规范对其语义进行准确描述,只能通过实现细节来理解,因此对其语义进行形式描述对于开发人员准确理解其语义非常必要.针对FlinkCEP提出一种数据流转换器的自动机模型,该模型包括用于刻画迭代条件的数据变量、存储输出结果的数据流变量、用于刻画匹配筛选策略的迁移优先级等特性.使用数据流转换器对FlinkCEP的语义进行形式建模,并且根据形式语义设计FlinkCEP的查询求值算法,实现原型系统.进一步,生成能够较为全面覆盖FlinkCEP语法特性的测试用例集,利用这些测试用例与FlinkCEP在Flink平台上的实际运行结果进行对比实验.实验结果表明所提出的形式语义与FlinkCEP在Flink平台上的实际语义基本是一致的.而且,对实验结果不一致的情况进行分析,指出FlinkCEP在Flink平台上的实现对于组模式的处理可能存在错误. 相似文献
16.
在监督或半监督学习的条件下对数据流集成分类进行研究是一个很有意义的方向.从基分类器、关键技术、集成策略等三个方面进行介绍,其中,基分类器主要介绍了决策树、神经网络、支持向量机等;关键技术从增量、在线等方面介绍;集成策略主要介绍了boosting、stacking等.对不同集成方法的优缺点、对比算法和实验数据集进行了总结与分析.最后给出了进一步研究方向,包括监督和半监督学习下对于概念漂移的处理、对于同质集成和异质集成的研究,无监督学习下的数据流集成分类等. 相似文献
17.
18.
Conventional classification algorithms are not well suited for the inherent uncertainty, potential concept drift, volume, and velocity of streaming data. Specialized algorithms are needed to obtain e?c... 相似文献
19.
针对流式数据处理系统Flink无法高效处理单点故障的问题,提出了一种基于增量状态和备份的故障容错系统Flink+。首先,提前建立备份算子和数据通路;然后,对数据流图中的输出数据进行缓存,必要时使用磁盘;其次,在系统快照时进行任务状态同步;最后,在系统故障时使用备份任务和缓存的数据恢复计算。在系统实验测试中,Flink+在无故障运行时没有显著增加额外容错开销;而在单机和分布式环境下处理单点故障时,与Flink系统相比,所提系统在单机8任务并行度下故障恢复时间减少了96.98%,在分布式16任务并行度下故障恢复时间减少了88.75%。实验结果表明,增量状态和备份方法一起使用可以有效减少流式系统单点故障的恢复时间,增强系统的鲁棒性。 相似文献