首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
为了解决传统数据清洗工具面对海量数据时复杂度高、效率低的问题,设计实现了流式大数据数据清洗系统.利用分布式计算技术清洗数据,以解决性能低的问题.该系统由统一接入模块、计算集群和调度中心三部分组成,实现了多种数据源的统一接入,分布式处理,并通过Web界面进行清洗流程的交互式配置.实验结果表明,面对海量数据的时候,流式大数据数据清洗系统的性能强于传统的单机数据清洗,提高了清洗效率.  相似文献   

2.
网络计算机模型下海量大数据存储系统设计   总被引:1,自引:1,他引:0  
对网络计算机模型下海量大数据进行安全稳定的存储,可以提高网络计算机的使用价值,增加其使用周期。但目前的海量大数据存储方法在存储过程中,无法做到对其进行灵活高效的存储,存在大数据存储分布密度较低,存储开销较大等问题。为此,以网络计算机模型体系结构为基础,提出了一种基于ARM的海量大数据存储系统设计方法。该设计方法先利用ARM芯片对网络计算机模型下海量大数据存储系统进行硬件构造,将网络海量大数据中的可利用与不可利用数据进行分类处理,采用VISA结构根据数据分类结果对大数据存储系统软件部分进行设计,依据大数据调度模型和存储相似度特征对大数据存储的时间,质量等方面进行计算,利用计算结果对大数据传输的阈值以及分布密度进行记录,最后根据循环分段的计算方式进行冗余大数据特性压缩,并对海量大数据的常规数据和冗余数据进行存储。实验仿真证明,所提方法提高了海量大数据存储的兼容性,增强了大数据存储的精确性和灵活性。  相似文献   

3.
随着大数据时代的到来,企业也正向着智慧性方向发展,如何利用好大数据是当今几乎所有企业面临的问题.找到、找准大数据应用的切入点是融入大数据时代所迫切需要迈出的重要一步.在线数据的爆发性增长,基于海量数据的存储技术、发掘技术、计算技术、剖析技术等各种技术的飞速进步,让大数据的应用形式不断创新,大数据成为当下最流行的概念之一.随着海量、细致的新数据源的呈现,将使企业可以深化发掘大数据的发展潜力,应用以往无法应用的商业信息,从而发现业务时机,并以此研发一系列新的业务应用.  相似文献   

4.
大数据问题所固有的规模繁杂性、高速增长性、形式多样性、价值密度低等特点为传统计算处理方法带来了严峻的挑战.一方面,大数据的规模繁杂性和高速增长性带来了海量计算分析的需求;另一方面,形式多样性和价值密度低等特点使得大数据计算任务高度依赖复杂认知推理技术.针对大数据计算中海量计算分析和复杂认知推理需求并存的技术挑战,传统的基于计算机的算法已经无法满足日益苛刻的数据处理要求,而基于人机协作的群体计算是有效的解决途径.在大数据群体计算中,最基础的就是任务的分配方式.考虑到大量网络用户不同的专业背景、诚信程度,因此不能简单随机地将要处理的任务交给大众来完成.针对此问题,提出了一种基于用户主题感知的迭代式任务分配算法.利用已知答案的测试问题迭代地检测不同人群的专业背景和完成任务的准确率.在充分了解用户真实主题和准确率的情况下为他们分配合适的问题.通过和随机任务分配算法在模拟数据和真实数据上的对比,有效显示了基于主题感知任务分配算法的准确性.  相似文献   

5.
大数据时代,面对爆发式增长的海量异构大数据,企业指标数据的实时供给能力亟待全面提升.基于流处理技术的大数据指标实时计算方法,主要由日志采集、消息管理、协调管理、实时处理等部分构成,使用Hadoop、Zookeeper、Storm、Kafka、Redis等开源软件,综合应用了数据库日志分析,流处理、内存计算等技术.本文详细论述了采用Storm技术的大数据指标实时计算方法的技术架构,实现方法及路径,同时给出了算法验证的过程和结果分析.  相似文献   

6.
为解决单机环境下海量地震观测数据计算和分析效率低下的问题,提出一种基于分布式架构的地震观测数据的存储、计算和分析处理方法,选择噪声功率谱复杂计算过程的应用场景进行实现.基于Hadoop在海量数据处理上的性能优势,在分布式文件存储系统HDFS上进行地震观测数据的存储和调度,研究测震数据噪声功率谱的质量评估方法在Spark分布式计算架构上的实现,采用弹性数据集Spark RDD将计算任务自动分配到计算节点,解析存储在HDFS中的测震波形数据,计算结果采用RowKey方式放入分布式数据库HBase中,实现了长周期地震噪声功率谱结果的存储和提取.计算结果表明,基于Spark分布式架构的该方法可以支撑TB级海量数据的处理,并且具有较高的处理效率,可应用于海量地震观测数据的分析计算.  相似文献   

7.
内存计算技术研究综述   总被引:4,自引:3,他引:1  
罗乐  刘轶  钱德沛 《软件学报》2016,27(8):2147-2167
在大数据时代,如何高效地处理海量数据以满足性能需求,是一个需要解决的重要问题.内存计算充分利用大容量内存进行数据处理,减少甚至避免I/O操作,因而极大地提高了海量数据处理的性能,同时也面临一系列有待解决的问题.首先,在分析内存计算技术特点的基础上对其进行了分类,并分别介绍了各类技术及系统的原理、研究现状及热点问题;其次,对内存计算的典型应用进行了分析;最后,从总体层面和应用层面对内存计算面临的挑战予以分析,并且对其发展前景做了展望.  相似文献   

8.
随着智能变电站的逐步覆盖,以及智能电网监控运行大数据分析系统数据接入范围的扩大,监控大数据系统具备海量数据的基本特征。本文设计的基于监控大数据系统的调控机构设备监控业务评价指标体系,主要包括数据管理、业务指标计算、GIS展示等功能,其中业务指标计算是以全网设备运行数据为基础,业务指标的计算具备数据规模大、计算复杂的特点。为了解决海量数据的统计效率,系统采用去中心化的建设思路,设计采用分级复用、面向服务和内存计算策略的多级指标计算框架,实现各类监控业务指标的高效统计,能够满足系统快速响应的非功能性需求,同时结合面向服务的分布式架构设计,实现不同系统之间的数据贯通,提升设备监控的业务协同能力,系统具备良好的扩展性。  相似文献   

9.
海量数据分析的One-size-fits-all OLAP技术   总被引:3,自引:0,他引:3  
张延松  焦敏  王占伟  王珊  周烜 《计算机学报》2011,34(10):1936-1946
传统的OLAP被迅速膨胀的海量数据推动进入了大规模数据分析时代,其主要特点是存储密度大,计算强度大,需要大规模并行存储和处理能力.无论是传统的并行数据库技术还是热点的MapReduce技术都不得不面对海量数据在大规模并行处理环境下的性能和并行处理效率的问题.以星型模型上复杂多表连接为基础的OLAP算法的复杂度和并行处理...  相似文献   

10.
海量数据挖掘过程相关技术研究进展   总被引:1,自引:0,他引:1  
随着信息技术的发展,复杂、多样的海量数据给数据挖掘带来了新的挑战。为了更加深入全面地了解大数据环境下的数据挖掘技术的研究进展和应用,从海量数据挖掘过程的技术框架、算法、理论及模式方面进行了详细的阐述。概述了大数据的基本概念、处理流程及面临的问题,简述了数据挖掘的基本过程及相关算法,详细评述了海量数据挖掘过程的研究现状及面临的挑战,并从博弈论的角度、粒计算模型及大数据处理思维方面探讨了海量数据挖掘过程中的处理模式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号