首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 21 毫秒
1.
张杰  叶德谦 《微处理机》2007,28(2):61-63
数据仓库(DW)是随着时间不断变化的数据集合。因此数据增量更新技术是数据仓库技术能否成功实施的关键。在目前的数据增量更新算法基础上,给出一种采用中间件来进行数据增量更新的方案和算法。并通过实例将此方法与原增量更新算法进行了细致的比较,说明了此算法有较好的更新效率。  相似文献   

2.
传统的基于DSP与FPGA的数字信号处理技术更加适用于实时信号处理,且受到数据规模和频率分辨率的限制,使得其不适于进行大规模数据下的离线式数据处理、分析与挖掘的应用.目前工业大数据分析平台可以采用Spark作为实时信号处理和离线信号处理加速的计算引擎,但该分析平台缺少适用于分布式并行计算引擎的数字信号处理等数学计算的解决方案.基于此,本文提出了基于Spark的分布式数字信号处理算法库,为面向分析的工业大数据应用场景提供支撑.本文介绍了该算法库的架构设计,并以FFT算法和DFT算法为例介绍了传统数字信号处理算法在Spark下的分布式实现,最后对算法库进行了正确性测试和性能分析.结果表明该算法库能够正确完成数字信号处理的功能,同时可以满足工业大数据分析平台对于大规模数据集进行数字信号处理的需求.  相似文献   

3.
Spark作为目前大数据处理领域广泛使用的计算平台,合理分配集群资源对Spark作业性能优化有着重要的作用.性能预测是集群资源分配优化的基础和关键,本文正是基于此提出了一种Spark性能预测模型.文中选取作业执行时间作为Spark性能衡量指标,提出了Spark作业关键阶段的概念,通过运行小批量数据集来获取关键阶段的运行时间和作业输入数据量之间关系,从而构建了Spark性能预测模型.实验结果表明该模型较为有效.  相似文献   

4.
随着大数据时代的到来,数据数量呈指数形式增长,一次性发布所有的数据已无法满足实时掌握数据的需求,提出(p, k)匿名增量更新算法,动态更新匿名发布数据表。为避免数据动态更新时造成隐私泄露,算法利用加密技术对敏感属性进行保护,建立暂存表及临时表辅助待更新数据及时插入。(p, k)匿名增量更新算法改善了传统算法无法实时更新数据的问题,保证了数据的实时性,并利用加密技术增强了数据的隐私保护性。实验结果表明,(p, k)匿名增量更新算法在较少信息损失量以及较快更新速率的情况下,实现了数据实时更新的目标。  相似文献   

5.
《软件》2016,(12):63-68
随着地理信息系统研究的不断深入发展,其应用领域不断扩张,地理数据规模越来越大,高性能的地理数据处理成为迫切并且必然的要求。为了适应地理信息系统发展的需要,本文设计了基于Spark平台的地理数据并行处理框架,并最终设计实现了地理数据并行装载技术,使得地理数据装载效率得到显著提高,为今后实现地理数据实时更新、访问、分析等奠定了良好的基础。  相似文献   

6.
视频监控技术在交通管理、公共安全、智慧城市等方面有着广泛的应用前景,且向着智能识别、实时处理、大数据分析的方向发展. 本文针对大规模实时视频监控提出了新的解决方案. 基于Spark streaming流式计算、分布式存储及OLAP框架,使多路视频处理在可扩展性、容错性及数据多维聚合分析上具有明显的优势. 系统根据视频处理算法划分为单机处理与分布式处理. 并将视频图像处理与数据分析耦合,利用Kafka消息队列与Spark streaming完成对多路视频输出数据的进一步操作. 结合分布式存储方案,并利用OLAP框架实现对海量数据实时多维聚合分析与高效实时查询.  相似文献   

7.
文章介绍了地图数据更新的目的和方法,以及数据增量探测与数据更新技术的关系.在AutoCAD 2007开发环境下,对地图数据不同版本间的增量进行探测和记录,实现地图数据快速准确更新.  相似文献   

8.
为解决单机多线程有效载荷实时参数解析处理方法存在的吞吐率低、扩展能力弱问题,提出一种基于Spark集群的有效载荷实时参数解析处理方法。采用Kafka和Spark相结合的处理方式,利用Kafka将有效载荷实时数据转换为消息队列流,Spark通过Kafka获取消息队列流的数据,利用内存对数据进行迭代运算,提高数据运算速度,实现实时的、高吞吐率的有效载荷参数解析。仿真结果表明,使用该方法在实时吞吐率上较单机多线程处理方法有较高提升,能有效满足实时参数解析的要求。  相似文献   

9.
MapReduce与Spark用于大数据分析之比较   总被引:2,自引:0,他引:2  
吴信东  嵇圣硙 《软件学报》2018,29(6):1770-1791
随着大数据时代的到来,海量数据的分析与处理已成为一个关键的计算问题.本文评述了MapReduce与Spark两种大数据计算算法和架构,从背景、原理以及应用场景进行分析和比较,并对两种算法各自优点以及相应的限制做出了总结.当处理非迭代问题时,MapReduce凭借其自身的任务调度策略和shuffle机制,在中间数据传输数量以及文件数目方面性能要优于Spark;而在处理迭代问题和一些低延迟问题时,Spark可以根据数据之间的依赖关系对任务进行更合理的划分,相较于MapReduce有效地减少中间数据传输数量与同步次数,提高系统的运行效率.  相似文献   

10.
导航电子地图动态更新核心技术研究   总被引:1,自引:0,他引:1  
目前,车辆导航用户要更新地图数据,须找数据生产商更换全部地图,这已阻碍了导航技术的发展和应用。本文采用增量更新的方法,利用无线网络实现导航电子地图的动态更新。主要介绍支持增量更新的导航电子地图物理存储格式和pull服务模式下更新流程的实现。  相似文献   

11.
谭亮  周静 《计算机系统应用》2018,27(10):133-139
交通大数据是解决城市交通问题的最基本条件,是制定宏观城市交通发展战略规划和进行微观道路交通管理与控制的重要保障.针对于智能交通系统中数据产生快、实时性强、数据量大的特点,本文基于Spark Streaming和Apache Kafka的组合构建了一个实时交通数据处理平台,用于处理通过双基基站采集的数据,采用时间窗口机制从持续的Kafka分布式消息队列中获取数据,并按照规则将数据分类处理后保存到数据库.本文对平台的系统架构和内部结构进行了详细的介绍,并通过实验验证了系统的实时处理能力,完全可以在大规模高并发的数据流下进行应用.  相似文献   

12.
随着大数据的发展和城市化进程的推进,城市交通路况预测成为智慧城市的焦点课题。而目前已有的实时路况预测模型由于软硬件的不足而不能进行准确高效的预测。文章利用真实的城市交通大数据,基于 Spark分布式内存计算框架,提出了一种高效的实时路况预测方法,其中实时路况用路段的平均速度体现。首先并行地对大量车辆的全球定位系统数据进行水平时间窗口和垂直时间窗口切片抽样,然后利用 Spark计算估测历史样本在各个时间段内历史平均速度的概率分布,最后采用贝叶斯最大后验估计基于新到的样本对未来的路况进行预测。实验结果表明,文章提出的方法可实现高效准确的实时路况预测。  相似文献   

13.
Spark SQL是Spark技术的一个模块,在不使用Scala语言的前提下,可以对结构化数据进行处理和优化.本文重点研究Spark SQL的架构、DateFrame数据抽象、基于数据分类的改进交替最小二乘算法(ALS)等几个方面,研究在推荐系统中处理结构化数据面临的性能优化问题研究.提出最小二乘算法对Spark SQL的Dateset进行优化,在操作Hive数据集和HBase分布式数据的过程中,整合二者的优点,改进了数据读写速度,优化了数据组织框架.在推荐系统进行结构化文件处理的问题上,具有一定的指导意义.  相似文献   

14.
当前个性化推荐算法应用因未构建增量更新推荐模型,对电子商务平台的大数据进行处理,导致推荐结果不能及时更新,严重影响用户体验.因此,提出基于大数据技术的电子商务个性化信息自动推荐算法.首先对平台中用户与项目的相异度进行计算,利用计算后的相异度矩阵构建数据增量更新模型;然后,将该模型作为个性化推荐模型,引入IU-UserCF推荐算法,提高预测准确性;最后以电商物流为应用对象,将所提方法引入应用进行探索.实验对比结果表明,所提方法在电子商务应用中有着更加出色的推荐效果.  相似文献   

15.
数据仓库技术是分布式异构数据库系统集成的一种较为先进的解决方法,实视图是数据仓库中存储的主要信息实体。实视图不仅是数据仓库中的数据的基本组织方式,而且采用实现图来定义和存储一些经过抽取及综合计算的数据,将有利于提高数据仓库的查询性能。实视图的建立和更新维护是其实现的主要技术问题,本文提出的实现图增量维护法和实现图版本链控制法,可以较好地满足不同种类实视图的实时更新维护。  相似文献   

16.
大数据时代催生了互联网流量的指数级增长,为了有效地管控网络资源,提高网络安全性,需要对网络流量进行快速、准确的分类,这就对流量分类技术的实时性提出了更高的要求。目前,国内外的网络流量分类研究大多是在单机环境下进行的,计算资源有限,难以应对高速网络中的 (准) 实时流量分类任务。本文在充分借鉴已有研究成果的基础上,吸收当前最新的思想和技术,基于Spark 平台,有机结合其流处理框架 Spark Streaming 与机器学习算法库 MLlib,提出一种大规模网络流量准实时分类方法。实验结果表明,该方法在保证高分类准确率的同时,也具有很好的实时分类能力,可以满足实际网络中流量分类任务的实时性需求。  相似文献   

17.
天地一体化智能网络规模大,环境复杂,网络中流量业务类型繁多且流量具有突发性.本文结合Spark大数据分布式平台,根据流量的特点设计了SFFS-FCBF-C4.5(简称SFC)决策树分类模型,实现了大规模网络下流量的实时分类,以保障网络中资源的合理分配和利用.SFC算法是在C4.5决策树算法的基础上结合了改进后的快速相关滤波算法(Fast Correlation-Based Filter Solution, FCBF)和连续型属性值离散化算法,可以在有效去除冗余特征和降低模型复杂度的同时,提高模型分类的速度和准确率.仿真结果表明,SFC决策树分类模型相比传统的流量分类模型具有较好的稳定性和较高的准确率,可以很好的适应复杂多变的网络环境.同时,Spark大数据分布式平台的应用大幅度提高了大规模网络下流量分类的速度,能够对海量流量进行实时分类.  相似文献   

18.
提出利用Cube中的维层次聚集树(dimension hierarchy aggregate tree,简称DHA-Tree)来对聚集Cube进行增量更新维护,在维层次聚集Cube中进行数据插入和删除等数据更新时,充分利用维层次聚集树中的维层次前缀,由下向上用更新前后的差值对受到更新结点影响的所有祖先结点进行增量更新.在插入新维数据时,在不需要重新构建聚集Cube就可以对聚集Cube进行增量更新,从而减少了Cube的更新时间.对基于维层次聚集树的聚集Cube与传统Cube进行了算法性能分析和比较,结果表明本文所提出的聚集Cube的增量更新算法性能最佳.  相似文献   

19.
针对现有气象自动站业务平台面临处理数据不及时、交互式响应慢、统计时效差等问题,提出了使用Spark Streaming技术和HBase解决该问题的方法,将实时计算框架和分布式数据库系统结合起来实现大规模流式数据处理。使用Flume收集自动站数据,Spark Streaming对数据进行流式处理并存储到HBase数据库中,并设计Spark框架下的自动站数据流式入库处理算法和要素极值的实时统计算法,在Cloudera平台下实现了一个高速可靠的实时采集、处理、统计的应用系统。通过对比分析和性能监测,验证了该系统具有低延迟和高吞吐量的优势,运行状况良好,负载均衡。实验结果表明,Spark Streaming用于气象自动站的实时业务处理,数据并行写入HBase、基于HBase的查询和各类要素统计均能达到毫秒级响应,完全能满足自动站数据的应用需求,有效地支撑天气预报业务。  相似文献   

20.
大数据中Hadoop和Apache Spark这两个名字大家并不陌生.但往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考. 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同.Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件.同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度.Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号