共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
针对从海量数据中分析与提取知识计算时间高的问题,提出一种基于Hadoop的知识提取算法.本文结合Hadoop的并行处理能力与分布式存储特点,设计了一种知识提取框架,可兼容不同的原型约简方法.基于MapReduce编程方法将约简方法并行化处理,并且设计了分类准确率高、计算速度快的原型约简组合规则.最终基于真实UCI大数据集进行实验,本框架将最近邻分类器的分类时间提高两个数量级. 相似文献
3.
如今,很多企业上云,只是把本地的数据技术、治理模式和安全能力迁移到云端,并没有思考如何通过真正云化的数据存储形式和技术方法,重构云端体验。什么是存储和使用数据的新方法?与传统本地模式相比,最新的数据存储方式有哪些不同?把数据从传统的数据仓库、数据湖迁移到分布式数据网格,就是现代化设计体系吗?其实,很多人都非常困惑。 相似文献
4.
5.
为了精准采集低开销智能化电力监控数据,有效应用电力监控数据,评估智能化电网运行状态,设计基于数据中台的智能化电力监控数据应用模型,该模型中数据技术层利用基于压缩传感的数据采集方法,采集低开销智能化电力监控数据,按照结构化与非结构化数据形式存储采集的数据;统一数据层利用贴源层按照存储数据类型,建立数据库,分类存储各类型数据;通过共享层清洗整合各类型数据,获取各类型数据的业务明细数据;采用分析层分析业务明细数据,为数据分析应用提供所需数据;通过统一数据服务引擎为不同数据分析应用提供数据服务支撑;数据分析应用中利用K-means算法与多元线性回归法预测智能化电网线损,通过博弈论集对云方法,评估与预测智能化电网运行状态。实验结果证明:该模型可精准采集低开销电力监控数据,在不同数据稀疏度与压缩长度时,数据采集的累积相对估计误差均较低;可有效聚类线损相关特征属性数据,精准预测电网线损,有效评估电网运行状态。 相似文献
6.
7.
交通流数据具有多来源、高速率、体量大等特征,传统数据存储方法和系统暴露出扩展性弱和存储实时性低等问题.针对上述问题,设计并实现了一套基于HBase交通流数据实时存储系统.该系统采用分布式存储架构,通过前端的预处理操作对数据进行规范化整理,利用多源缓冲区结构对不同类型的流数据进行队列划分,并结合一致性哈希算法、多线程技术、行键优化设计等策略将数据并行存储到HBase集群服务器中.实验结果表明:该系统与基于Oracle的实时存储系统相比,其存储性能提升了3~5倍;与原生的HBase方法相比,其存储性能提升了2~3倍,并且具有良好的扩展性能. 相似文献
8.
输变电设备在运行中将产生大量的多态、异构数据,导致在数据集成和利用过程中出现信息孤岛问题,无法实现不同数据源内的数据信息共享互换。如何可靠获取、同步处理并对这些数据信息充分挖掘给电力系统中信息系统的建设及运行维护带来巨大压力。采用本体技术对多源异构数据进行聚合,可以向用户提供更具针对性的信息。针对电网中输变电设备全景信息数据的多源性、多态性、异构性,本文提出了基于Hadoop和HBase的输变电设备大数据聚合平台方案,搭载改进混合本体聚合方法,并设计了Map/Reduce分布式查询和推理流程。该平台采用标准化和开放性建模语言,屏蔽底层异构数据源,具有良好的可扩展性,可用于解决输变电设备数据信息的非结构化、共享性差、难以处理等问题。 相似文献
9.
梁艺多 《电脑编程技巧与维护》2022,(9):94-96+168
大数据背景下,航运数据开放呈现出语义化和海量化的特征。将语义Web与Hadoop相结合,一体化地设计航运数据开放平台,并针对基于Hbase的资源描述框架(RDF)分布式存储和基于MapReduce的SPARQL分布式查询两大核心技术进行讨论,以最大限度地发挥航运数据的潜在价值。 相似文献
10.
随着我国城镇化建设的不断发展,电力企业的生产任务也逐渐增加,如何做好电力生产数据管理工作已经成为相关单位十分重要的研究课题之一.因此,本次研究以Oracle信息集成平台为基础专门设计了一套基于三层分布式框架的电力生产数据管理系统,旨在提升电力企业的集中管理能力与数字化管理水平. 相似文献
11.
数据仓库是连接底层数据源与上层应用的枢纽。该文介绍了数据仓库的填充(与数据源的连接)和数据仓库的访问(与应用界面的连接)技术,包括与数据库数据源和非数据库数据源的连接以及采用组件工具访问数据仓库的方式和实现方法。 相似文献
12.
Making a business decision using data from severaldifferent enterprise databases can be complicated. Data warehousesconsolidate data into a central repository and give you the OLAP toolsnecessary to retrieve data pertinent to the solution.DefinitionA data warehouse is used to consolidate this data into a central storeand to arrange it to make analysis easier, which means the data is lessnormalized than your traditional application database. Data is typicallytransferred in batch to the centra… 相似文献
13.
数据挖掘是一新兴的技术,近年对其研究正在蓬勃开展。本文阐述了数据仓库及数据挖掘的相关概念,做了相应的分析,同时共同探讨了两者共同发展的关系,并对数据仓库与挖掘技术结合应用的发展做了展望。 相似文献
14.
数据挖掘是一新兴的技术,近年对其研究正在蓬勃开展.本文阐述了数据仓库及数据挖掘的相关概念,做了相应的分析,同时共同探讨了两者共同发展的关系,并对数据仓库与挖掘技术结合应用的发展做了展望. 相似文献
15.
基于空间数据仓库的数据采掘 总被引:6,自引:0,他引:6
文章介绍了数据采掘技术的定义、数据采掘的过程和主要技术手段以及空间数据仓库的定义、基本结构框架、处理流程和技术支持,分析了基于空间数据仓库的数据采掘特点。 相似文献
16.
17.
文章介绍了数据采掘技术的定义、数据采掘的过程和主要技术手段以及空间数据仓库的定义、基本结构框架、处理流程和技术支持,分析了基于空间数据仓库的数据采掘特点. 相似文献
18.
大数据分析与高速数据更新 总被引:1,自引:0,他引:1
陈世敏 《计算机研究与发展》2015,52(2):333-342
大数据对于数据管理系统平台的主要挑战可以归纳为volume(数据量大)、velocity(数据的产生、获取和更新速度快)和variety(数据种类繁多)3个方面.针对大数据分析系统,尝试解读velocity的重要性和探讨如何应对velocity的挑战.首先比较事物处理、数据流、与数据分析系统对velocity的不同要求.然后从数据更新与大数据分析系统相互关系的角度出发,讨论两项近期的研究工作:1)MaSM,在数据仓库系统中支持在线数据更新;2)LogKV,在日志处理系统中支持高速流入的日志数据和高效的基于时间窗口的连接操作.通过分析比较发现,存储数据更新只是最基本的要求,更重要的是应该把大数据的从更新到分析作为数据的整个生命周期,进行综合考虑和优化,根据大数据分析的特点,优化高速数据更新的数据组织和数据分布方式,从而保证甚至提高数据分析运算的效率. 相似文献
19.
近年来,随着数据元标准的建立,数据元在各行各业的数据集成过程中担任着重要角色,用于规范数据库、报表、文档中的数据项,实现各种数据源之间的映射。分析数据元的结构,提出一种数据项与数据元匹配算法,该算法基于编辑距离算法,融合最长公共子序列、权重、词语重心后移等思想,实现数据项与数据元字典中数据元的相似度计算,利用排列组合原理对匹配速度进行优化。以中石化标准数据元为实验数据进行实验,验证了该匹配算法的有效性。 相似文献
20.
数据依赖与异常数据分离-应用 总被引:2,自引:1,他引:1
数据在传递过程中,经常出现两类现象:一些被传递的数据在传递中发生部分数据元丢失;一些未知的数据元入侵到被传递的数据内。这两类现象使得被传递的数据出现“异常”。利用一个新的数学模型,给出两类现象的理论研究与应用。这个新的数学模型是P集合(packet sets) , P-集合是由内P集合XF(internal packet set XF)与外P集合XF (outer packet set XF)构成的集合对;或者,(XF,XF)是P集合。给出数据的F依赖、F依赖的概念与特性,提出数据的依赖定理,给出异常数据被分离的应用。数据依赖是P集合诸多应用特性之一。P集合是研究动态数据系统的一个新理论与新方法。 相似文献