首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
随着信息技术的迅速发展,数据体量维持指数增长,数据价值挖掘困难,这为数据采集、清洗、存储、共享等数据生命周期中各环节的高效管控带来极大的挑战.数据摘要技术利用哈希表/矩阵/位向量对数据的频数、基数、成员关系等核心基础特性进行追踪,使得数据摘要自身成为元数据,并在共享、传输、更新等场景得到广泛应用.大数据的快速流转特性更是催生了动态数据摘要技术.现有的动态数据摘要技术通过动态维护链状或树状结构的概率数据结构列表,具有其容量随数据流大小而扩增或缩减的优势,然而也存在空间开销过大以及时间开销随数据基数增加而增长的缺陷.基于先进的跳跃一致性哈希理论,设计了一种面向大数据治理的动态数据摘要技术.该方法可以同时实现随数据基数线性增长的空间开销以及数据处理分析常数级别的时间开销,能够有效地支撑要求苛刻的多种大数据处理分析任务.在多种合成和真实数据集上,通过与传统方法实验对比,验证了所提方法的有效性和高效性.  相似文献   

2.
针对大数据背景下基于划分的聚类算法中存在初始中心敏感,节点间通信开销大以及集群效率低下等问题,提出了基于网格密度和局部敏感哈希函数的PBGDLSH-MR并行化聚类算法。首先,对初始数据集提出网格密度策略(GDS)获取初始中心点,有效避免了随机选取引起的初始中心敏感的问题;其次,提出基于局部敏感哈希函数的数据分区(DP-LSH)用于投射关联性较大的数据对象到同一子数据集中,得到map上的数据分区,并设计相似性度量公式(SI)对数据分区结果进行评价,从而降低了节点间的通信开销;接着设计自适应分组策略(AGS)处理数据分区中数据倾斜的问题,进而有效地提高了集群效率;最后,结合MapReduce计算模型并行挖掘簇中心,生成最终聚类结果。实验结果表明,PBGDLSH-MR算法的聚类效果更佳,同时在大数据环境下能有效地提高并行计算的效率。  相似文献   

3.
Big data has become a national basic strategic resource, and the opening and sharing of data is the core of China''s big data strategy. Cloud native technology and lake-house architecture are reconstructing the big data infrastructure and promoting data sharing and value dissemination. The development of the big data industry and technology requires stronger data security and data sharing capabilities. However, data security in an open environment has become a bottleneck, which restricts the development and utilization of big data technology. The issues of data security and privacy protection have become increasingly prominent both in the open source big data ecosystem and the commercial big data system. Dynamic data protection system under the open big data environment is now facing challenges in regards such as data availability, processing efficiency, and system scalability. This paper proposes the dynamic data protection system BDMasker for the open big data environment. Through a precise query analysis and query rewriting technology based on the query dependency model, it can accurately perceive but does not change the original business request, which indicates that the whole process of dynamic masking has zero impact on the business. Furthermore, its multi-engine-oriented unified security strategy framework realizes the vertical expansion of dynamic data protection capabilities and the horizontal expansion among multiple computing engines. The distributed computing capability of the big data execution engine can be used to improve the data protection processing performance of the system. The experimental results show that the precise SQL analysis and rewriting technology proposed by BDMasker is effective. The system has good scalability and performance, and the overall performance fluctuates within 3% in the TPC-DS and YCSB benchmark tests.  相似文献   

4.
屠要峰  牛家浩  王德政  高洪  徐进  洪科  阳方 《软件学报》2023,34(3):1213-1235
大数据成为国家基础性战略资源,数据的开放共享是我国大数据战略的核心.云原生技术和湖仓一体架构正在重构大数据基础设施,并推动数据共享和价值传播.大数据产业和技术的发展都需要更强的数据安全和数据共享能力.然而,开放环境下数据的安全问题已成为制约大数据技术发展与利用的瓶颈.无论开源大数据生态还是商业大数据系统,所引发的数据安全及隐私保护问题都日益凸显.开放大数据环境下的动态数据保护系统面临着数据可用性、处理高效性和系统可扩展性等方面的挑战.提出了面向开放大数据环境的动态数据保护系统BDMasker,通过一种基于查询依赖模型(querydependencymodel)的精准查询分析及查询改写技术,能够精准感知但不改变原始业务请求,实现动态脱敏全过程对业务零影响;通过面向多引擎的统一安全策略框架,实现了动态数据保护能力的纵向扩展和在多种计算引擎中的横向扩展;利用大数据执行引擎的分布式计算能力,提升系统的数据保护处理性能.实验结果表明, BDMasker提出的精准SQL分析及改写技术是有效的,系统具有良好的扩展能力和性能表现,在TPC-DS和YCSB基准测试中,整体性能波动在3%之内.  相似文献   

5.
为提高多格式海量数据统一存取效率,提出了一种基于Hadoop的分布式数据读取模式。并通过对海量数据非主键索引结构的研究,结合统一存取的描述理念,提出了基于HDFS的一种可适用于B-树和R-树及其变种的层次索引结构,改变了原键—值存储在非主键索引结构中的劣势。通过提出Hadoop缓冲策略、基于随机读取的新数据传输模型以及相应的查询处理策略,进一步降低了数据传输开销。实验表明,该系列方法优化了统一存取中随机存取效率,减少了相应的查询响应时间和数据传输开销,提高了多格式海量数据统一存取的性能。  相似文献   

6.
文章提出了一种基于格的大数据动态存储完整性验证方案,方案基于量子计算机也难以破解的格上困难问题,具有较高的安全性,采用了Merkle哈希树技术,支持数据动态变化,并且运行效率也很高。最后文章论证了方案的正确性和安全性,该方案能够广泛的应用到与大数据动态完整性验证相关的场景中。  相似文献   

7.
为解决智能电网的发展中电网运行和设备检测或监测数据、电力企业管理数据、电力企业营销等数据海量的增加带来的不同业务系统之间分散地开发、运行和管理,系统数据存储结构独立,带来数据多源、格式不一致,数据准确性、实时性不强,数据质量不高,缺乏统一的数据规范等问题,本文利用Hadoop的分布式文件系统HDFS和并行处理框架MapReduce的工作原理,搭建电网调度大数据应用平台系统,解决了不同业务系统之间的数据不能及时共享、访问、管理与分析挖掘等问题。采用数据清洗数据,解决数据质量不高的问题。搭建电网调度大数据应用平台系统,既能实现跨专业、跨部门的多维度关联分析,又能满足海量的智能电网数据存储和数据处理需求,并具有强大的伸缩性,可扩展为电网实现安全、可靠、经济、高效地运行提供保障。  相似文献   

8.
针对云服务器上存储数据完整性验证过程中的高通信开销和动态数据验证问题,提出一种基于Merkle哈希树(MHT)的动态数据完整性验证与恢复方案。首先,基于MHT构建了一种新型分层认证数据结构,将数据块的每个副本块组织成副本子树,以此大幅降低多副本更新验证的通信开销。然后,在数据验证中,融入了对服务器安全索引信息的认证,以此避免服务器攻击。最后,当发现数据损坏时,通过二分查找和Shamir秘密共享机制来恢复数据。实验结果表明,该方案在验证过程中能有效降低计算和通讯开销,并能够很好地支持数据的动态操作。  相似文献   

9.
随着国家电网公司基于大数据、云计算等项目的逐渐增多,国网某省电力公司全业务海量数据激增,导致现有电力营销存在电力数据缺乏统一部署系统、数据共享难度较大、数据指标逻辑规则不统一等问题。集中接入并整合电力各渠道的账户数据和客户数据,结合大数据技术研究电力营销大数据融合共享平台的建设与应用,集中接入和整合电网各渠道的账户数据和客户数据,开展电力客户标签快速搜索及数据驱动营销业务分析等场景,为电力企业运营平台及全景大屏展示提供支持。  相似文献   

10.
随着人工智能的发展和落地应用,以地理空间大数据为基础,利用人工智能技术对遥感数据智能分析与解译成为未来发展趋势。本文以遥感数据转化过程中对观测对象的整体观测、分析解译与规律挖掘为主线,通过综合国内外文献和相关报道,梳理了该领域在遥感数据精准处理、遥感数据时空处理与分析、遥感目标要素分类识别、遥感数据关联挖掘以及遥感开源数据集和共享平台等方面的研究现状和进展。首先,针对遥感数据精准处理任务,从光学、合成孔径雷达等遥感数据成像质量提升和低质图像重建两个方面对精细化处理研究进展进行了回顾,并从遥感图像的局部特征匹配和区域特征匹配两个方面对定量化提升研究进展进行了回顾。其次,针对遥感数据时空处理与分析任务,从遥感影像时间序列修复和多源遥感时空融合两个方面对其研究进展进行了回顾。再次,针对遥感目标要素分类识别任务,从典型地物要素提取和多要素并行提取两个方面对其研究进展进行了回顾。最后,针对遥感数据关联挖掘任务,从数据组织关联、专业知识图谱构建两个方面对其研究进展进行了回顾。除此之外,面向大智能分析技术发展需求,本文还对遥感开源数据集和共享平台方面的研究进展进行了回顾。在此基础上,对遥感数据智能分析与解译的研究情况进行梳理、总结,给出了该领域的未来发展趋势与展望。  相似文献   

11.
数据治理技术   总被引:2,自引:0,他引:2       下载免费PDF全文
吴信东  董丙冰  堵新政  杨威 《软件学报》2019,30(9):2830-2856
随着信息技术的普及,人类产生的数据量正在以指数级的速度增长,如此海量的数据就要求利用新的方法来管理.数据治理是将一个机构(企业或政府部门)的数据作为战略资产来管理,需要从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化.目前,各行各业对大数据的研究比较火热,但对于大数据治理的研究还处于起步阶段,一个组织的正确决策离不开良好的数据治理.首先介绍数据治理和大数据治理的概念、发展以及应用的必要性;其次,对已有的数据治理技术——数据规范、数据清洗、数据交换和数据集成进行具体的分析,并介绍了数据治理成熟度和数据治理框架设计;在此基础上,提出了大数据HAO治理模型.该模型以支持人类智能(HI)、人工智能(AI)和组织智能(OI)的三者协同为目标,再以公安的数据治理为例介绍HAO治理的应用;最后是对数据治理的总结和展望.  相似文献   

12.
针对分布式信息网数据库管理系统中因跨节点的复杂查询带来的昂贵通信开销,提出一种基于信息网模型和查询的数据动态划分算法。该算法根据信息网模型的关系特性和历史关系信息得到数据之间的初始关联,并结合历史查询信息挖掘数据之间的潜在关联,将关联性较强的数据动态调整到同一个处理节点上,使复杂查询跨节点的数量减少。最后,在标准合成数据集Wat Div上进行大量的实验评估。实验结果表明:在保证节点之间的对象个数和关系对占比负载均衡的情况下,该算法在周期内的查询时间与一致性哈希算法相比缩短了35%~55%,并将多个周期相同查询的时间波动控制在5%~10%,保证了复杂查询的稳定性。  相似文献   

13.
中文摘要:随着信息数据的快速发展,我国的社会保险信息化建设正在稳步推进,社会保险信息化建设程度依赖于各企业社会保险基础管理水平,电力企业的社会保险基础管理虽然开展较早,但距离数据共享及精确管理还有很大差距,如何在工作中将人力资源大数据充分应用在社会保险专业工作中,实现数据共享,提升数据价值,提高管理水平成为亟待解决的课题。本论文研究探索如何更好的实现人力资源社会保险大数据的共享与关联,实现大数据的应用服务,更好地开展人力资源中社会保险管理水准,更好地服务于企业与员工提出了很好的研究和探索,大数据的共享提高使社会保险管理工作的上升到了新高度,大数据的全面利用将成为提升公司管理水平、增强公司管理效能的有效手段。  相似文献   

14.
为推进大数据技术在油田领域的快速融合和应用,提出一种覆盖大数据处理整个生命周期的多功能大数据处理平台。平台融合各类大数据分析框架和机器学习框架,设计面向油田领域,能够支持实时和离线处理的数据挖掘功能。基于Docker容器封装各类计算框架和算法服务,并基于Kubernetes框架完成容器的编排与调度。在系统的架构方式上采用基于微服务的架构方式,将不同技术栈的应用独立分解为单个服务模块,以此来保证业务系统服务的可靠性、可扩展性。这使得企业数据分析人员能够专注于业务数据分析问题,而不必花费大量时间学习框架部署和其他大型数据挖掘技术细节。  相似文献   

15.
工业大数据是在工业领域信息化应用中所产生的海量数据,作为决策问题服务的大数据集、大数据技术和大数据应用的总称。首先分析工业大数据4V特性与工业数据的特有特征,以及工业大数据来源;从多源异构工业数据集成与数据融合方法、工业大数据计算架构、大数据带来的信息安全等三方面论述工业大数据面临的挑战与潜在价值。探讨了工业大数据分析与挖掘方法,提出了工业大数据平台的计算架构与大数据处理平台,构建轮胎企业大数据资源中心、大数据分析与决策应用系统。从销售数据分析和宏观数据趋势两个层面进行轮胎销售大数据分析与预测。采用多个不同领域的销售数据源来解决销售预测历史数据特征空间稀疏的问题,使用LASSO(The Least Absolute Shrinkage and Selectionator Operator)方法的多任务学习方法来解决高维样本空间的缺点,实验数据验证能够提升轮胎销售预测的准确率。  相似文献   

16.
因新疆独特的地理、环境、温度等条件,信息、通信设备分布广,距离远,运行的稳定性与可靠性差。在供电行业信息通信作为智能电网框架的重要一环,在其中发挥着关键性的技术支撑作用,如何最大程度发挥信息通信领域的专业优势,需要创新思维,改变固有的模式。利用大数据对信通设备进行精益化管控,可以实时掌握信通设备运行的状态,及时解决设备运行中存在的隐患,消除设备存在重大缺陷,最大程度的保障智能电网的可靠运行。本文提出了利用大数据平台质量评价的方法。依托一体化信息大数据平台强化全过程管理,突破了全寿命周期资产管理的技术难点,通过全面科学的数据治理,最终使信通业务数据的标准化程度、共享化程度大大提高,达到产权、设备、资产一体化管理的目标。  相似文献   

17.
针对大数据环境下基于Can树(canonical order tree)的增量关联规则算法存在树结构空间占用过大、频繁模式挖掘效率不佳以及MapReduce集群并行化性能不足等问题,提出了一种基于粗糙集和归并剪枝方法改进的并行关联规则增量挖掘算法MR-PARIRM(MapReduce-based parallel association rules incremental mining algo-rithm using rough set and merge pruning).首先,设计了一种基于粗糙集的相似项合并策略RS-SIM(rough set based similar item merge)对数据集的相似项进行合并处理,并根据合并后的数据进行Can树构造,从而降低树结构的空间占用;其次,提出了一种归并剪枝策略MPS(merge pruning strategy)对树结构中的传播路径进行修剪合并,通过压缩频繁模式搜索空间来加快频繁项挖掘;最后,通过动态调度策略DSS(dynamic scheduling strategy)对异构式MapReduce集群中的计算任务进行动态调度,实现了负载均衡,有效提升了集群的并行化运算能力.最终的实验仿真结果表明,MR-PARIRM在大数据环境下具有相对较好的性能表现,适用于对大规模数据进行并行化处理.  相似文献   

18.
胡海苗  姜帆 《软件学报》2015,26(S2):228-238
提出了一种可扩展的局部敏感哈希索引(SLSH),以解决高维动态数据索引中,由于数据集大小及分布特征无法确定而导致索引效率降低的问题.SLSH架构于E2LSH之上,继承了其对高维数据索引速度快,并可直接对欧式空间上的数据点进行索引的特点.为了使得哈希索引具有动态的相似性区分能力,SLSH修改了E2LSH的哈希族,通过哈希桶容量约束自适应调节哈希参数.因此对于分布密度动态变化的数据空间,SLSH也能够给出鲁棒的划分.  相似文献   

19.
大数据处理分析算法在优化研究过程中,速度常常受限于数据集的规模。在数据集体量不足时,算法的通信时间往往要高于真正的计算时间,无法验证真实的效果。故设计实现了一个大数据集生成器,为运行在超级计算机上的并行大数据处理分析算法提供基准测试数据集。首先,使用MPI并行编程技术构造了一个并行随机数生成器,在此基础上设计实现了可控制规模及复杂性的人工数据集,主要包括:分类和聚类数据集、回归数据集、流形学习数据集和因子分解数据集等。其次,设计了大数据集生成器的I/O系统,提供MPI-I/O并行读、写数据集的接口,并设置了数据集在不同进程间的分发、映射规则,通过点对点通信实现不同节点之间的数据交互。实验结果表明,并行大数据集生成器有效提高了数据生成效率和生成规模,为并行大数据处理分析算法提供了高质量、大体量的测试数据集。  相似文献   

20.
针对Spark系统参数量巨大且手动调整参数具有耗时、效率低下等问题,提出一种基于人工神经网络(Artificial Neural Network, ANN)的方法来对Spark系统的配置参数进行自动调整,保障在处理空管大数据时的速度和性能。使用Dell PowerEdge T430服务器测试了空管大数据中5种常用的不同大小的数据集,以验证该方法。研究表明,与默认参数配置相比,该方法可将Spark系统的性能平均提高约35%。随着数据集大小的增加,性能呈现进一步提高的趋势。该方法可以有效地保障Spark系统的参数调整效率,达到高效处理空管大数据的目的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号