首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 765 毫秒
1.
设计并实现基于分布式平台的大数据分析处理系统,基于Spark平台用以处理大规模时间序列数据.系统框架主要分为存储层、算子层和算法层.在存储层,系统基于HDFS和Hive完成对大规模时间序列数据的组织和索引.在算子层,系统为用户提供了Spark平台上时间序列数据常用的基本操作,并允许用户直接使用这些算子实现自定义的时间序...  相似文献   

2.
现实生活中大量数据都可以使用多维网络进行建模,如何更好地对多维网络进行分析至今仍是研究人员关注的重点.OLAP(联机分析处理)技术已被证实是对多维关系数据进行分析的有效工具,但应用OLAP技术管理和分析多维网络数据以支持有效决策仍旧是一项巨大的挑战.本文设计并提出了一种新的图立方体模型:路径-维度立方体,并针对提出的立方体模型将物化过程划分为关系路径物化与关联维度物化两部分,分别提出了物化策略并基于Spark框架设计了相关算法;在此基础上,我们针对网络数据设计并细化了相关的GraphOLAP(图联机分析处理)操作,丰富了框架的分析角度,提高了对多维网络的分析能力;最后,在Spark上实现了相关算法,通过对多个真实应用场景中的数据构建多维网络,在分析框架上进行了分析,实验表明我们提出的图立方体模型和物化算法具有一定有效性和可扩展性.  相似文献   

3.
OLAP(联机分析处理)是一种新的多维数据分析处理技术.本文提出了一种具有通用性和可扩展性的OLAP系统.该系统能够有效地处理多种数据源,如数据仓库、关系数据库、多维数据库等,并根据用户需求建立多种数据存储模式,对用户屏蔽了数据模式的细节,界面友好.  相似文献   

4.
OLAP在企业中的多维数据分析研究   总被引:1,自引:0,他引:1  
分析了OLAP的特点,进行数据仓库存储方式的构建和多维数据分析功能的实现。引入动态的OLAP多维视图分析,决策者可以从各种维度对销售数据进行审视,进行切片、切块、旋转和钻取等OLAP基本分析操作。文章介绍了组织用于OLAP的多维数据结构。用OLAP进行销售数据多维数据分析。  相似文献   

5.
针对大数据新型处理框架Spark执行Apriori算法存在速率低、内存负荷高等不足,提出一种改进的Apriori优化算法.基于字典表压缩存储的机制,结合Spark框架中列式存储模式对多维多属性值的数据集进行压缩,通过Spark集群进行数据并行处理.实验表明,该算法比原算法执行速率提高23%以上,且在数据量越大的情况下其优势更明显.该算法具有降低内存负荷量、去候选频繁项集、提高执行速率等优势,且解决了多维多属性值数据集的分析难题,具备一定的应用价值.  相似文献   

6.
为了满足流媒体视频数据在传输过程中对数据的时效性、传输效率及传输的准确性这些高要求,本文从实时大数据的流处理应用出发,通过分析流媒体视频数据在实时传输中遇到的难点和所需的关键技术,采用Storm流处理技术实现高性能、低延迟的分布式实时传输系统,在Linux系统上完成Storm框架的搭建,设计并实现了流媒体视频数据的传输拓扑任务,同时部署Zookeeper为框架提供高效可靠的分布式协调服务,并搭建流媒体服务器用于视频推流后的存储及客户端的点播.在搭建好Storm框架后,通过了对大规模流媒体视频数据的实时传输测试.  相似文献   

7.
根据煤矿安全生产业务需求及智慧矿山发展要求,新型的煤矿数据中心需满足对同一时空坐标体系下煤矿海量、多元数据的高效处理、缓存、计算、存储与发布。针对传统煤矿数据中心各类数据离散存储,数据集成、业务应用及数据分析难度大等问题,设计了一种基于Hadoop的煤矿数据中心架构。采用Storm实时数据流引擎进行数据实时计算,并应用MapReduce,Spark实现批处理计算和内存计算,解决高频时序数据存储与海量数据计算问题;采用Hadoop分布式文件系统(HDFS)实现文件的可靠存储,并采用HBase分布式存储数据库实现历史数据的持久化存储,利用其无模式稀疏设计满足同一时空坐标体系下的数据分析需求;采用Redis作为实时数据库存储数据快照进行最新数据检索。基于Hadoop的煤矿数据中心充分利用大数据技术的高速数据存取和压缩性能,通过统一的云计算数据中心,有效降低了煤炭企业数据应用的复杂度及数据中心日常运维难度,可为智慧矿山建设奠定数据基础。  相似文献   

8.
OLAP(联机分析处理)是一种新的多维数据分析处理技术。本文提出了一种具有通用性和可扩展性的OLAP系统。该系统能够有效地处理多种数据源,如数据仓库、关系数据库、多维数据库等,并根据用户需求建立多种数据存储模式,对用户屏蔽了数据模式的细节,界面友好。  相似文献   

9.
传统的基于DSP与FPGA的数字信号处理技术更加适用于实时信号处理,且受到数据规模和频率分辨率的限制,使得其不适于进行大规模数据下的离线式数据处理、分析与挖掘的应用.目前工业大数据分析平台可以采用Spark作为实时信号处理和离线信号处理加速的计算引擎,但该分析平台缺少适用于分布式并行计算引擎的数字信号处理等数学计算的解决方案.基于此,本文提出了基于Spark的分布式数字信号处理算法库,为面向分析的工业大数据应用场景提供支撑.本文介绍了该算法库的架构设计,并以FFT算法和DFT算法为例介绍了传统数字信号处理算法在Spark下的分布式实现,最后对算法库进行了正确性测试和性能分析.结果表明该算法库能够正确完成数字信号处理的功能,同时可以满足工业大数据分析平台对于大规模数据集进行数字信号处理的需求.  相似文献   

10.
大数据中Hadoop和Apache Spark这两个名字大家并不陌生.但往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考. 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同.Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件.同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度.Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储.  相似文献   

11.
针对传统集中式网络视频录像系统在多通道、大容量存储与多终端并发访问时,存在存储设备硬件处理能力不足和网络带宽局部拥塞现象,设计了一种分布式网络视频录像系统。该系统采用分布式IP架构,可实现视频数据的分布式物理存储和集中式逻辑管理;应用基于Socket的设备通信控制技术及基于应用层组播的回放控制技术,实现了设备管理和权限管理控制数据的交互及视频流的高效网络传输控制。测试结果表明,该系统较好地解决了矿区多通道、大容量的视频数据实时存储和远程回放问题。  相似文献   

12.
针对现有气象自动站业务平台面临处理数据不及时、交互式响应慢、统计时效差等问题,提出了使用Spark Streaming技术和HBase解决该问题的方法,将实时计算框架和分布式数据库系统结合起来实现大规模流式数据处理。使用Flume收集自动站数据,Spark Streaming对数据进行流式处理并存储到HBase数据库中,并设计Spark框架下的自动站数据流式入库处理算法和要素极值的实时统计算法,在Cloudera平台下实现了一个高速可靠的实时采集、处理、统计的应用系统。通过对比分析和性能监测,验证了该系统具有低延迟和高吞吐量的优势,运行状况良好,负载均衡。实验结果表明,Spark Streaming用于气象自动站的实时业务处理,数据并行写入HBase、基于HBase的查询和各类要素统计均能达到毫秒级响应,完全能满足自动站数据的应用需求,有效地支撑天气预报业务。  相似文献   

13.
当前,智慧城市成为信息时代城市建设的一个基本目标,智能视频安防监控是其中重要一环,希望从视频图像提取出有效的信息,提供有效的治安防控业务信息。由于视频监控系统广泛使用于各行各业,监控视频数据已成为一类典型的大数据,因此,如何对监控视频大数据进行高效的处理成为一个重要挑战。为此,本文在分析视频处理特点的基础上,提出并实现了一种基于HadoopMapReduce计算框架的分布式离线视频处理方法,该方法根据视频处理的特点进行优化,提升了监控视频大数据的处理效率。  相似文献   

14.
视频监控系统是安防中较为核心的软件产品,在安全系统中具有非常重要的地位。但是,在传统的视频监控系统中,视频信号的局限性很难满足现代用户对视频的需求。随着控制系统水平的提升,尤其是芯片处理技术以及视频分析技术的进步,推动了高清智能视频监控系统的发展。同时,高清智能视频监控系统具有网络和智能化分析,视频数据高清晰度等优势,更好地满足了高水平的智能视频控制﹐更好地保护了人们的人身和财产安全。  相似文献   

15.
对基于ARM的视频数据采集传输系统进行研究及设计,通过ARM新一代嵌入式开发平台,与现在流行的互联网及无线传输技术相结合,实现视频数据的采集和远程数据的传输。设计中采用嵌入式Linux系统通过USB摄像头进行视频数据的采集,解决图像的格式转换和MJPEG编码压缩的数据处理,以及通过软件的设计实现MJPEG格式文件到流媒体输出等问题,最终实现视频数据采集和传输。本系统有以下几个方面的应用:家庭环境的实时监测、家居的智能化控制、高危车间厂房无线监控与控制、中长距离的家庭视频通讯、企业实时视频监控等。  相似文献   

16.
易佳  薛晨  王树鹏 《计算机科学》2017,44(5):172-177
分布式流查询是一种基于数据流的实时查询计算方法,近年来得到了广泛的关注和快速发展。综述了分布式流处理框架在实时关系型查询上取得的研究成果;对涉及分布式数据加载、分布式流计算框架、分布式流查询的产品进行了分析和比较;提出了基于Spark Streaming和Apache Kafka构建的分布式流查询模型,以并发加载多个文件源的形式,设计内存文件系统实现数据的快速加载,相较于基于Apache Flume的加载技术提速1倍以上。在Spark Streaming的基础上,实现了基于Spark SQL的分布式流查询接口,并提出了自行编码解析SQL语句的方法,实现了分布式查询。测试结果表明,在查询语句复杂的情况下,自行编码解析SQL的查询效率具有明显的优势。  相似文献   

17.
Deniz Kılınç 《Software》2019,49(9):1352-1364
There are many data sources that produce large volumes of data. The Big Data nature requires new distributed processing approaches to extract the valuable information. Real-time sentiment analysis is one of the most demanding research areas that requires powerful Big Data analytics tools such as Spark. Prior literature survey work has shown that, though there are many conventional sentiment analysis researches, there are only few works realizing sentiment analysis in real time. One major point that affects the quality of real-time sentiment analysis is the confidence of the generated data. In more clear terms, it is a valuable research question to determine whether the owner that generates sentiment is genuine or not. Since data generated by fake personalities may decrease accuracy of the outcome, a smart/intelligent service that can identify the source of data is one of the key points in the analysis. In this context, we include a fake account detection service to the proposed framework. Both sentiment analysis and fake account detection systems are trained and tested using Naïve Bayes model from Apache Spark's machine learning library. The developed system consists of four integrated software components, ie, (i) machine learning and streaming service for sentiment prediction, (ii) a Twitter streaming service to retrieve tweets, (iii) a Twitter fake account detection service to assess the owner of the retrieved tweet, and (iv) a real-time reporting and dashboard component to visualize the results of sentiment analysis. The sentiment classification performances of the system for offline and real-time modes are 86.77% and 80.93%, respectively.  相似文献   

18.
随着信息技术和网络技术的迅猛发展,数字信息尤其是视频数据日益丰富,成为人们获取信息和相互交流的重要方式.但是由于视频数据的数据量非常大、数据的结构复杂以及视频内容非常丰富等特点,使得对视频进行有效的分析和处理变得非常困难.怎样高效的组织、管理和使用这些多媒体数据,逐渐引起了人们的关注.视频检索就是从海量的视频数据中搜索出所需要的视频.对视频监控场景的实时监控预警的需求和对监控视频流基于内容的结构化处理的需求,促使我们开展了基于内容的自动视频监控研究.  相似文献   

19.
针对传统联机分析处理(OLAP)处理大数据时实时响应能力差的问题,研究基于分布式内存计算框架Spark加速的数据立方体计算方法,设计基于Spark内存集群的自底向上构造(BUC)算法——BUCPark,来提高BUC的并行度和大数据适应能力。在此基础上,为避免内存中迭代的立方体单元膨胀,基于内存重复利用和共享的思想设计改进的BUCPark算法——LBUCPark。实验结果表明:LBUCPark算法性能优于BUC算法和BUCPark算法,能够胜任大数据背景下的快速数据立方体计算任务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号