首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
随着遥感技术和摄影测绘的发展,遥感影像的分辨率不断提高,数据量日益增长,这对快速、高效地处理海量遥感影像数据提出了更高的要求,如何有效、智能地存储和处理海量遥感数据成为研究的热点。在分析现有金字塔模型的并行构建的基础上,设计一种面向Spark计算框架的影像金字塔模型。模型给出了影像金字塔构建算法及影像数据的分布式存储组织结构,实现了海量遥感影像数据在Spark中的并行处理,为Spark增加了计算处理空间数据格式的能力。实验结果表明,利用该方法能够在Spark云平台上实现快速、高效的解决海量遥感影像金字塔的并行构建,特别是在面对海量遥感影像数据时,无论从金字塔构建性能上还是遥感影像的计算效率上,Spark都更具优势。  相似文献   

2.
视频监控技术在交通管理、公共安全、智慧城市等方面有着广泛的应用前景,且向着智能识别、实时处理、大数据分析的方向发展. 本文针对大规模实时视频监控提出了新的解决方案. 基于Spark streaming流式计算、分布式存储及OLAP框架,使多路视频处理在可扩展性、容错性及数据多维聚合分析上具有明显的优势. 系统根据视频处理算法划分为单机处理与分布式处理. 并将视频图像处理与数据分析耦合,利用Kafka消息队列与Spark streaming完成对多路视频输出数据的进一步操作. 结合分布式存储方案,并利用OLAP框架实现对海量数据实时多维聚合分析与高效实时查询.  相似文献   

3.
秦勃  朱勇  秦雪 《计算机工程与科学》2015,37(12):2216-2221
乘潮水位计算是海洋环境信息处理的重要组成部分,具有计算量大、计算复杂度高、计算时间长等特性。采用传统集群计算模式实现乘潮水位计算业务,存在计算成本高、计算伸缩性和交互性差的问题。针对以上问题,提出一种基于Spark框架的乘潮水位计算和可视化平台。结合对Spark任务调度算法的研究,设计和实现了一种基于节点计算能力的任务调度算法,实现了长时间序列的多任务乘潮水位数据的检索、获取、数值计算、特征可视化的并行处理,达到了海量海洋环境数据计算和可视化处理的目的。实验结果表明,提出的基于Spark的乘潮水位计算和可视化平台可以有效地提高海量乘潮水位数据的分布式并行处理的效率,为更加快速和高效的乘潮水位计算提供了一种新的方法。  相似文献   

4.
视频设备被广泛应用于公共区域、智能交通和工业生产等许多领域,其产生的视频数据具有体量巨大、速度极快、价值稀疏和完全非结构化等大数据典型特征。为了进一步提高视频大数据的处理性能,提出了一种基于Spark Streaming的视频大数据并行处理方法,设计了基于Spark Streaming的视频大数据并行处理框架,针对帧间无关分析算法和帧间相关分析算法分别给出了并行化策略,前者利用数据并行机制将去冗余后的视频帧映射到不同节点并行处理,后者利用流水线并行机制将分析算法的各个算子根据依赖关系映射到不同节点并行处理;结合实际应用对并行处理框架和并行化策略进行了评价,设计了电梯乘客数并行检测算法和电梯门异常并行检测算法,当节点数增加到16个时,电梯乘客数检测算法的性能加速比为615%,电梯门异常检测的性能加速比为253%。  相似文献   

5.
研究海量数据基础上高速公路流量预测建模问题,提出了一种基于ARIMA-BPNN的混合预测模型,并建立基于Spark的分布式处理平台.建立ARIMA时间序列模型提取数据的线性变化规律,研究BPNN的残差预测;建立混合预测模型,研究并行化实现及其运行效率;建立Spark分布式计算平台下高速公路流量数据的预测模型并进行仿真实验.结果表明,Spark框架下的ARIMA-BPNN组合模型优于单一的ARIMA的预测,对预测拟合效果和精度方面表现良好,对海量数据处理有明显优势.  相似文献   

6.
随着公路修建里程增长,为了更高效率地解决路面养护问题,对路面裂缝检测技术进行研究。论文将传统的图像分割处理与Spark结合,提出了一种基于Spark的路面裂缝图像分割处理方法。先将图像预处理转化为二进制文件,读入到分布式文件系统;然后通过传递函数,对裂缝进行图像分割来获得裂缝区域;最后,以局部自适应阈值算法结合Spark平台来进行图像的并行处理,完成裂缝的高效率提取。以在校园拍摄的路面图像数据为实验数据,分别在处理时间和检测准确率这两方面进行实验。由结果可知:利用Spark对数千张图像数据进行计算时,在确定千余张图像数据规模时,双节点比单节点处理时间更少,最多减少了20.4%。在图像分割的准确率方面,已经由之前方法的47.5%提高到了86.3%。实验结果表明,基于Spark的裂缝图像处理,结合局部自适应阈值分割算法进行数千张裂缝图像分割,能有效提升传统方法的处理效率,能实现大规模图像的并行处理。  相似文献   

7.
针对电能设备异常并行诊断数据量大、种类繁多等问题,以朴素贝叶斯和Spark为基础,提出一种基于数据挖掘的电能设备异常并行诊断模型。在该模型中,首先对电能计量装置异常数据进行计算,然后采用HDFS+Hive+Spark SQL的方案实现对异常信息的多维分析;应用Spark并行框架搭建朴素贝叶斯并行诊断模型。最后,通过搭建服务器集群和仿真的方式对上述方案进行测试。实验结果表明,朴素贝叶斯算法在Spark上具有高效的并行处理数据能力,且异常诊断正确率与单机相比相差较小,同时在多维分析方面,集群比单机处理的时间具有明显优势。由此结果说明,提出的基于数据挖掘的电能设备故障并行诊断切实可行。  相似文献   

8.
为解决单机环境下海量地震观测数据计算和分析效率低下的问题,提出一种基于分布式架构的地震观测数据的存储、计算和分析处理方法,选择噪声功率谱复杂计算过程的应用场景进行实现.基于Hadoop在海量数据处理上的性能优势,在分布式文件存储系统HDFS上进行地震观测数据的存储和调度,研究测震数据噪声功率谱的质量评估方法在Spark分布式计算架构上的实现,采用弹性数据集Spark RDD将计算任务自动分配到计算节点,解析存储在HDFS中的测震波形数据,计算结果采用RowKey方式放入分布式数据库HBase中,实现了长周期地震噪声功率谱结果的存储和提取.计算结果表明,基于Spark分布式架构的该方法可以支撑TB级海量数据的处理,并且具有较高的处理效率,可应用于海量地震观测数据的分析计算.  相似文献   

9.
针对大数据新型处理框架Spark执行Apriori算法存在速率低、内存负荷高等不足,提出一种改进的Apriori优化算法.基于字典表压缩存储的机制,结合Spark框架中列式存储模式对多维多属性值的数据集进行压缩,通过Spark集群进行数据并行处理.实验表明,该算法比原算法执行速率提高23%以上,且在数据量越大的情况下其优势更明显.该算法具有降低内存负荷量、去候选频繁项集、提高执行速率等优势,且解决了多维多属性值数据集的分析难题,具备一定的应用价值.  相似文献   

10.
气象数据生产过程中秒级数据流量达到6万次/秒,为了对海量气象数据进行实时监控,快速定位数据观测、传输、处理、服务全流程中各环节故障,研发了对监视数据的采集和处理框架.基于REST接口和Flume框架实时采集原始监视信息,采用Kafka实现监视数据流的缓冲和持久化存储,在Spark Streaming流式计算平台上实现对监视数据的预处理、指标计算,并对告警事件进行归并、压缩等处理,最终生成面向运维人员的告警.同时、上述系统采用故障仿真压测技术,对系统可能出现的故障进行了模拟压力测试.实验结果表明,上述框架能有效地解决海量监视数据的高效采集和处理,能够实时捕捉故障并进行有效分析与排除,其处理时效和准确性满足气象综合业务实时监控的需求.  相似文献   

11.
Hadoop的设计初衷是为了存储和分析大数据,其最擅长处理的是大数据集。但是在实际应用中,却存在着大量的小文件。一般情况下有四种处理海量小文件的方法,分别为默认输入格式TextInputFormat、为处理小文件而设计的CombineFileInputFormat输入格式、SequenceFile技术以及Harballing技术。为了比较在相同的Hadoop分布式环境下这四种技术处理大量小文件时的性能,选用了典型的数据集,利用词频统计程序,来比较四种小文件处理技术的性能差异。实验研究表明,在不同需求下处理大量小文件的时候,选用适当的处理方法能够在很大程度上提高大量小文件的处理效率。  相似文献   

12.
随着我国视频监控网络的不断壮大,监控视频数据呈现海量增长的趋势,如何快速有效地进行监控视频检索变得越来越重要。提出一种基于运动目标的监控视频检索方法。对监控视频中的运动目标提取特征,生成相应的视频描述文件,通过匹配查询图片与描述文件中的运动目标特征最终找到相似对象出现的视频片断。实验表明,该方法实用性较好。  相似文献   

13.
视频监控数据TB级的增长,从海量视频数据中高效准确的分离出视频监控场景中的运动物体,是计算机视觉领域的研究重点和挑战。提出了基于云平台的视频数据处理的并行计算框架及一种改进的基于混合高斯模型(GMM)的自适应前景提取算法,通过对混合高斯分布的自适应学习和在线 EM(期望最大化)算法获得最优参数组合,并将改进算法融合到视频处理并行计算框架。实验结果表明,该方法不但能大大提高视频处理的效率,并对复杂环境下准确提取前景目标也有良好的鲁棒性。  相似文献   

14.
为了解决HDFS(Hadoop Distributed File System)在存储海量小文件时遇到的NameNode内存瓶颈等问题,提高HDFS处理海量小文件的效率,提出一种基于小文件合并与预取的存取优化方案。首先通过分析大量小文件历史访问日志,得到小文件之间的关联关系,然后根据文件相关性将相关联的小文件合并成大文件后再存储到HDFS。从HDFS中读取数据时,根据文件之间的相关性,对接下来用户最有可能访问的文件进行预取,减少了客户端对NameNode节点的访问次数,提高文件命中率和处理速度。实验结果证明,该方法有效提升了Hadoop对小文件的存取效率,降低了NameNode节点的内存占用率。  相似文献   

15.
为了实现对AVI(Audio Video Interleaved)文件中视频影像的分析和处理,提出了一种根据AVI文件的存储结构、利用Matlab中的音视频处理函数aviread等编程的方法,将AVI文件中的视频数据流读出并存储为一系列BMP文件,再进行小波变换压缩后写入AVI文件.利用该方法,实现了AVI视频影像的分解、合成及压缩,编程简单、数据处理可靠、程序运行高效.  相似文献   

16.
Hadoop分布式文件系统(HDFS)通常用于大文件的存储和管理,当进行海量小文件的存储和计算时,会消耗大量的NameNode内存和访问时间,成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题,提出一种基于双层哈希编码和HBase的海量小文件存储优化方法.在小文件合并时,使用可扩展哈希函数构建索引文件存储桶,使索引文件可以根据需要进行动态扩展,实现文件追加功能.在每个存储桶中,使用MWHC哈希函数存储每个文件索引信息在索引文件中的位置,当访问文件时,无须读取所有文件的索引信息,只需读取相应存储桶中的索引信息即可,从而能够在O(1)的时间复杂度内读取文件,提高文件查找效率.为了满足多模态医疗数据的存储需求,使用HBase存储文件索引信息,并设置标识列用于标识不同模态的医疗数据,便于对不同模态数据的存储管理,并提高文件的读取速度.为了进一步优化存储性能,建立了基于LRU的元数据预取机制,并采用LZ4压缩算法对合并文件进行压缩存储.通过对比文件存取性能、NameNode内存使用率,实验结果表明,所提出的算法与原始HDFS、HAR、MapFile、TypeStorage以及...  相似文献   

17.
单机下Hadoop小文件处理性能分析   总被引:1,自引:0,他引:1       下载免费PDF全文
Hadoop主要是针对大量数据进行分布式处理的软件框架,即适合于处理大文件,但它们是否也适合处理小文件值得商榷。以词频统计为例,通过在单机环境下一些典型文件测试集的实验,对比了不同文件输入格式对Hadoop处理小文件性能的差异。从Hadoop的工作流程和原理上解释了出现此性能差异的原因。通过分析得出多个小文件整合为一个数据片split有助于改善Hadoop处理小文件性能。  相似文献   

18.
基于视频数据的分布式计算与基于文本类型数据的分布式计算存在很大的差异。视频数据本身是非结构化的,并且对于同样大小的视频,若其内容不同会导致任务执行消耗的时间也不同。对于简单的结构化数据,HDFS默认的负载均衡器能够解决负载均衡的问题。但是视频文件存在热点访问以及复杂度不一致的问题。使用HDFS默认的数据分布机制不能很好地解决计算负载均衡问题。因此提出了一种基于HDFS的海量视频数据重分布算法。首先对视频文件的访问次数以及历史视频分析对视频文件的访问时间进行记录;然后对数据进行量化之后将其加权作为该视频文件的负载度;最后使用文件置换手段将负载高的视频与低的视频进行置换,直到每个节点的负载达到均衡为止。实验结果表明,使用提出的数据重分布算法可以减少海量视频数据的处理时间。  相似文献   

19.
General purpose computation on graphics processing unit (GPGPU) provides a significant gain in terms of the processing time compared with CPU. Images are particularly good subjects for massive parallel implementations on GPU. Thus, the processing time can be improved for computer vision and image/video processing algorithms. However, GPGPU has a fairly complex integration process in a framework and they evolve very rapidly. In this paper, we present a framework that provides all the desired primitives related to GPGPU-based image processing algorithms, which makes it easy and straightforward for the user to exploit. The proposed framework is object-oriented, and it utilizes design patterns. The user can benefit from all the advantages of object-oriented programming, such as code reusability/extensibility, flexibility, information hiding, and complexity hiding. This makes it possible to rapidly integrate new technologies and functionality as they appear.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号