首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
数据是天文学发展的重要驱动。分布式存储和高性能计算(High Performance Computing,HPC)为应对海量天文数据的复杂性、不规则的存储和计算起到推动作用。天文学研究中多信息和多学科交叉融合成为必然,天文大数据已进入大规模计算时代。高性能计算为天文大数据处理和分析提供了新的手段,针对一些传统手段无法解决的问题给出了新的方案。文中根据天文数据分类和特征,以高性能计算为支撑,对天文大数据的数据融合、高效存取、分析及后续处理、可视化等问题进行了研究,总结了现阶段的技术特点,提出了处理天文大数据的研究策略和技术方法,并对天文大数据处理面对的问题和发展趋势进行了探讨。  相似文献   

2.
为了解决实际问题,大数据分析处理系统需要获取数据,然而实际场景中收集到的实际数据通常不完备.另外,大多数问题的解决方案通常是由问题引导或者仅仅进行数据分析,运行参数调整和设定带有较大的盲目性,难以达到应用的智能性.为此,文中提出平行数据的概念和框架,根据实际数据经计算实验产生真正的虚拟大数据,结合默顿定律,以期待的解决方案与问题进行广义对偶,引导大数据聚焦到实际问题.实际数据与虚拟数据动态互动,平行演化,形成一个虚实相生、数据动态变化的过程,最终使数据具备智能,进而解决未知的问题.平行数据不但是一种数据表示形式,更是一种数据演化机制与方式,其特色是虚实互动,所有数据的动力学轨迹构成了数据动力学系统.平行数据为数据处理、表示、挖掘和应用提供了一个新的范式.  相似文献   

3.
监管视频数据的剧增,导致现有系统无法满足社会的监管需求,为此提出大数据在监管中心智能化系统中的应用研究.此研究着重分析大数据技术在监管中心智能化系统—智能视频分析模块的应用,基于大数据技术设计目标行为分析软件,包括监管视频数据处理层与应用层.监管视频数据处理层采用数据整理技术—Retinex算法降噪、增强视频图像,监管...  相似文献   

4.
博物馆和科技馆等场馆的系统数据量非常巨大,系统需要的数据处理都是按照固定的算法和程序进行开发的,扩展性和灵活性差,不能满足用户灵活多变的需求且对业务处理人员不是很友好。本文研究一种基于大数据的可视化数据治理平台通过综合运用大数据及互联网等新技术,构建可视化的大数据治理平台,平台提供数据采集能力组件进行数据采集,数据处理组件进行数据处理,而且用户还可以自定义选择具体算法进行大数据计算处理,最终进行数据资源输出。系统通过搭建模块化架构,为用户提供可视化数据处理能力组件,帮助用户完成数据采集和数据计算处理等服务,用户可以通过平台对数据处理进行灵活定制化选择,保证灵活性的处理数据来满足业务需求。  相似文献   

5.
本文结合威胁情报系统的设计、开发和运维经验,系统研究了流式数据处理、交互式数据分析、数据湖以及分布式数据处理等大数据技术在威胁情报系统中的应用.分析和总结了在威胁情报系统建设场景中,大数据技术的选择、大数据产品的选型以及大数据平台的设计,为基于大数据技术的应用系统的设计和开发提供参考.  相似文献   

6.
根据电能质量系统中监测数据海量化的趋势,提出了一种基于部分存储和选择性加载的数据处理算法,彻底解决了现有数据处理算法中重复排序和多余处理的问题。在计算日指标时,根据存储率存储部分日排序数据;在计算周(月、季、年)指标时,利用多路归并算法将存储的部分日排序数据合并,计算出临时95概率大值(CP95);根据临时CP95确定需要重载的日数据,对部分存储的日数据和重载数据重新排序以计算稳态指标。部分存储的日排序数据可以重复利用,有效解决了传统处理方案中的重复排序问题;排序过程中只需读取部分日排序数据和少量重载数据,有效解决了传统处理方案中冗余处理问题。与传统的数据处理方法做测试对比,结果表明:日采样数据较小时,性能提升3倍以上;日采样数据超过2880时,性能提升15倍以上。数据量越大,性能提升越明显。所提方案已在山西、河北等监测系统中成功应用,实践证明所提方案正确、有效。  相似文献   

7.
工业大数据是在工业领域信息化应用中所产生的海量数据,作为决策问题服务的大数据集、大数据技术和大数据应用的总称。首先分析工业大数据4V特性与工业数据的特有特征,以及工业大数据来源;从多源异构工业数据集成与数据融合方法、工业大数据计算架构、大数据带来的信息安全等三方面论述工业大数据面临的挑战与潜在价值。探讨了工业大数据分析与挖掘方法,提出了工业大数据平台的计算架构与大数据处理平台,构建轮胎企业大数据资源中心、大数据分析与决策应用系统。从销售数据分析和宏观数据趋势两个层面进行轮胎销售大数据分析与预测。采用多个不同领域的销售数据源来解决销售预测历史数据特征空间稀疏的问题,使用LASSO(The Least Absolute Shrinkage and Selectionator Operator)方法的多任务学习方法来解决高维样本空间的缺点,实验数据验证能够提升轮胎销售预测的准确率。  相似文献   

8.
当前配电网规划中存在的规划存在不合理、数据处理效果不佳、系统故障诊断效率偏低等问题,为提高配电网规划水平,本文结合大数据在电力系统应用的时代背景,提出电力大数据在配电网规划中的应用对策,并分析电力大数据在配电网规划中的应用效果。电力大数据在配电网规划中的应用具有重要意义,能够实现对配电数据的精准处理,对电网状态进行准确评估,同时也为配电网结构优化提供技术支持。具体应用过程中,应该在主动配电网数据调度、主动配电网数据规划管理、配电网电压数据规划管理中运用电力大数据,并把握技术要点,合理进行配电网规划。实际应用表明,电力大数据满足配电网规划需要,能够提高配电系统数据信息处理效果和系统故障诊断效率。  相似文献   

9.
随着云原生技术在云计算领域的广泛应用,应用云原生技术更好地支撑业务能力成为了开发者们关注的重点。大数据环境下,基于海量数据和信息,针对数据处理与信息管理业务,对云平台系统进行了研究工作,梳理了系统的功能组成,部署形式,从体系架构、功能结构、技术设计等方面设计了一种面向数据处理与信息管理的云平台,给出了框架、方法和技术,实现系统资源的统一管理、监控、共享和调度,实现应用的统一部署和高可用性。从整体角度分析设计了技术体系架构。通过应用容器云技术,该平台能够自动部署集群、快速扩容计算空间,用于应对大型数据处理面临的计算量巨大、优化困难等问题。该系统架构自动化程度更高、可用性更强,应用运行结果更具稳定性,能有效满足信息在存储、大规模计算、深度数据挖掘等方面的需求,从而达到通过云平台技术强力支撑数据处理与信息管理业务以及提升数据处理能力的目的。  相似文献   

10.
针对智能电网数据繁多、用户应用困难的技术问题,提出了智能电网大数据驱动方法,并设计出基于云计算软件平台管理智能电网大数据的系统。通过采用数据挖掘算法对智能电网大数据样本训练、学习,建立多个数据处理模型。根据决策树算法能够实现智能电网数据不同属性数据的分类,使得用户快速从浩瀚的云端数据库中获取目标数据,并将处理后的数据通过区块链系统保存,进而实现数据的永久性存储。不同用户通过签发密钥实现数据的共享,使得数据应用和管理更为便捷有效。本方案为智能电网大数据处理与应用提供了技术参考。  相似文献   

11.
A Taxonomy of Dirty Data   总被引:3,自引:0,他引:3  
Today large corporations are constructing enterprise data warehouses from disparate data sources in order to run enterprise-wide data analysis applications, including decision support systems, multidimensional online analytical applications, data mining, and customer relationship management systems. A major problem that is only beginning to be recognized is that the data in data sources are often dirty. Broadly, dirty data include missing data, wrong data, and non-standard representations of the same data. The results of analyzing a database/data warehouse of dirty data can be damaging and at best be unreliable. In this paper, a comprehensive classification of dirty data is developed for use as a framework for understanding how dirty data arise, manifest themselves, and may be cleansed to ensure proper construction of data warehouses and accurate data analysis. The impact of dirty data on data mining is also explored.  相似文献   

12.
数据治理技术   总被引:2,自引:0,他引:2       下载免费PDF全文
吴信东  董丙冰  堵新政  杨威 《软件学报》2019,30(9):2830-2856
随着信息技术的普及,人类产生的数据量正在以指数级的速度增长,如此海量的数据就要求利用新的方法来管理.数据治理是将一个机构(企业或政府部门)的数据作为战略资产来管理,需要从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化.目前,各行各业对大数据的研究比较火热,但对于大数据治理的研究还处于起步阶段,一个组织的正确决策离不开良好的数据治理.首先介绍数据治理和大数据治理的概念、发展以及应用的必要性;其次,对已有的数据治理技术——数据规范、数据清洗、数据交换和数据集成进行具体的分析,并介绍了数据治理成熟度和数据治理框架设计;在此基础上,提出了大数据HAO治理模型.该模型以支持人类智能(HI)、人工智能(AI)和组织智能(OI)的三者协同为目标,再以公安的数据治理为例介绍HAO治理的应用;最后是对数据治理的总结和展望.  相似文献   

13.
李建中  王宏志  高宏 《软件学报》2016,27(7):1605-1625
信息技术的迅速发展催生了大数据时代的到来.大数据已经成为信息社会的重要财富,为人们更深入地感知、认识和控制物理世界提供了前所未有的丰富信息.然而,随着数据规模的增长,劣质数据也随之而来,导致大数据质量低劣,极大地降低了大数据的可用性,严重困扰着信息社会.近年来,数据可用性问题引起了学术界和工业界的共同关注,开展了深入研究,取得了一系列研究成果.本文介绍数据可用性的基本概念,讨论数据可用性的挑战与研究问题,综述数据可用性方面的研究成果,探索大数据可用性的未来研究方向.  相似文献   

14.
数据迁移的一般原则   总被引:4,自引:0,他引:4  
在应用软件及数据库开发中经常要做数据迁移工作 ,数据迁移就是将数据从一种数据环境移入另一种数据环境中。进行彻底而精确的数据转换应遵循以下关键步骤 :识别源数据、确定数据集成转换的规则以及开发转换规则代码。介绍了数据迁移的一般步骤 ,并提出了从数据转换、选择迁移方法以及从元数据管理的角度评价迁移工具的标准  相似文献   

15.
涂菲菲  周明辉 《软件学报》2019,30(5):1522-1531
问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据质量问题,通过文献调研和访谈,并基于自有经验对数据进行分析,总结出了9种数据质量问题,覆盖了数据产生、数据收集和数据使用这3个不同的阶段.进一步地,提出了相应的方法以帮助发现和解决数据问题.发现问题是指加强对数据上下文的理解和通过统计分析及数据可视化发现潜在的数据质量问题,解决问题是指利用冗余数据或者挖掘用户行为模式进行修正.  相似文献   

16.
伴随着人类进入大数据时代,大数据在彰显出巨大应用价值的同时,也凸显出数据可用的科技问题。如何解决数据可用带来的挑战,成为各国政府和学界高度关注的问题。目前,针对大数据的可用性研究刚刚起步,对大数据可用性进行了探讨,并就数据可用性的研究前景进行了展望。  相似文献   

17.
数据仓库系统中源数据的提取与集成   总被引:12,自引:0,他引:12  
人们对数据分析的要求的不断提高导致了数据仓库的发展,而在建设数据仓库的过程中非常关键的一步就是从事务数据库或其它的数据源中抽取和集成原始数据。本文在对数据集成方法和数据获取中可能碰到的问题进行全面分析的基础上,较为详细地介绍了我们自行开发的数据仓库系统SEUwarehouse中源数据提取与集成工具的设计与实现.  相似文献   

18.
数据提取、转换和装载技术研究   总被引:4,自引:0,他引:4  
来自企业操作环境的数据是数据仓库的数据源,通过提取、转换、装载填充数据仓库,对数据提取、转换与装载技术进行了研究与实践。对数据提取、转换与装载要解决的问题进行了详细论述并提出了相应的解决方法,并以MS SQL Server2000为例,介绍了可用于析取数据的一些工具。在此基础上,以电信行业话单数据载入数据仓库为实例,就如何实现各步骤进行了详细说明,提出了在数据提取、转换与装载过程中需注意的一些问题。  相似文献   

19.
数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不准确的数据,精确恢复其时间戳是困难的,但可以依据一定的规则对其时间先后顺序进行还原恢复,满足数据清洗及各类应用需求.在数据时效性应用需求分析的基础上,首先明确了属性的时效规则相关概念,对属性的时效规则等进行了形式化定义;然后提出了基于图模型的时效规则发现以及数据时序修复算法;随后,对相关算法进行了实现,并在真实数据集上对算法运行效率、修复正确率等进行了测试,分析了影响算法修复数据正确率的一些影响因素,对算法进行了较为全面的分析评价.实验结果表明,算法具有较高的执行效率和较好的时效修复效果.  相似文献   

20.
大数据的一个重要方面:数据可用性   总被引:9,自引:0,他引:9  
随着信息技术的发展,特别是物理信息系统、互联网、云计算和社交网络等技术的突飞猛进,大数据普遍存在,正在成为信息社会的重要财富,同时也带来了巨大的挑战.数据可用性问题就是大数据的重要挑战之一.随着数据的爆炸性增长,劣质数据也随之而来,数据可用性受到严重影响,对信息社会形成严重威胁,引起了学术界和工业界的共同关注.近年来,学术界和工业界开始研究数据可用性问题,取得了一些的研究成果,但是针对大数据可用性问题的研究工作还很少.介绍了大数据可用性的基本概念,讨论大数据可用性的挑战,探讨大数据可用性方面的研究问题,并综述数据可用性方面的研究成果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号