首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
何玉洁 《计算机教育》2009,(8):129-132,89
数据仓库是进行多角度数据分析的基础,在审计中可借助数据仓库技术分析数据,用以辅助发现问题和锁定审计重点。数据仓库中的数据结构是面向数据分析设计的,在构建数据仓库时需要对原始操作型的数据进行适当的清理和转换,使其更适合分析的需求。本文介绍了构建审计分析数据仓库中常见的数据清理和数据转换问题以及相应的解决技术。  相似文献   

2.
大规模数据集已经超过TB和PB级,现有的技术可以收集和存储大量的信息。虽然数据库管理系统一直在不断提高提供复杂的多种数据管理的能力,但是管理查询工具并不能满足大数据的需求,如何精准理解和探索这些大规模数据集仍然是一个巨大的挑战。交互式数据探索(interactive data exploration,IDE)的关注点是强调交互、探索和发现,能让用户从海量的数据中用最小的代价更精确地找到他们需要的信息。首先对交互式数据探索及其应用背景进行了介绍,总结了通用的探索模型和IDE的特点,分析了交互式数据探索中的查询推荐技术和查询结果优化技术的现状;随后分别对IDE原型系统进行了分析和比较;最后给出了关于交互式数据探索技术的总结和展望。  相似文献   

3.
数据转换过程的串行化方法   总被引:2,自引:1,他引:2  
随着数据仓库和数据集成的发展,数据清洗的工作越来越多,用户在进行数据清洗时需要对数据的内容进行多次处理。在设计清洗的建模过程中,用户可能对同一个数据进行多次的清洗和转换处理,由于步骤多,用户往往不知道清洗和转换步骤出现错误。该文对前述问题进行论述,并针对这种清洗和转换处理中的赋值冲突和范围冲突提出解决方法。  相似文献   

4.
面向数据集成的ETL系统设计与实现   总被引:8,自引:1,他引:8  
ETL是一类用于从一个或多个业务数据库中抽取数据,进行清理转换并加载到数据仓库中的工具。这个数据抽取、转换和加载的过程能够很好地应用于数据集成领域中,实现不同机构之间数据的交换与整合。通过分析数据集成的一些特点,我们提出了一个ETL过程模型,开发了一个面向数据集成的ETL系统DataIntegrator。本文对ETL过程模型、系统总体结构及若干关键技术进行论述。DataIntegrator已经应用于信息系统的建设中,为企业应用集成提供了很好的支持。  相似文献   

5.
球坐标中等矩网络数据转换的递推算法   总被引:1,自引:0,他引:1  
本文的为解决气象领域可视化中遇到的网格数据转换问题,提出了等矩网格数据转换的递推算法,并分析了算法的复杂性,本文最后给出了算法在交互式可视化系统MeteoVis中的应用结果。  相似文献   

6.
原始数据存在大量的空缺、噪音及错误数据,必须进行筛选和清理,本文针对用于建模的电信数据在数据理解、数据创建、数据清洗及数据格式化等方面探讨了几种进行提取、清理和转换方法,以消除数据中的噪音和缺失等,便于用户聚类分析,提高模型的精度和正确率。  相似文献   

7.
研究使用Adams用户子程序进行二次开发的方法实现对交互式仿真过程的控制.在每一步的仿真结束后与主系统进行数据的交互,将Adams仿真的控制权交给主系统,实现Adams与主系统的交互式仿真.最后,通过与传统仿真方法得到的数据结果的对比分析,验证应用Adams用户子程序实现对交互式仿真的控制方法的正确性、可行性.  相似文献   

8.
数据清理及其在数据仓库中的应用   总被引:9,自引:0,他引:9  
数据仓库是为决策服务的,这里的数据是从各种并构的数据源中采集过来的。由于各个数据源中的数据可能存在错误以及种种不一致性,因而为了确保决策数据的质量必须要对各个数据源中抽取出来的数据进行清理转换。数据清理就是发现数据源中数据的错误并加以清除或修改,发现和纠正数据源之间数据的不一致性。分析了数据清理概念和方法以及在数据仓库中的应用。  相似文献   

9.
孙进 《福建电脑》2010,26(12):69-70
21世纪以来,人才成为各企业竞争的焦点,已有企业开始使用强大的数据挖掘进行人才的选用.作为数据挖掘的前期数据清理,影响着数据挖掘的效率.本文从数据清理的概念开始,浅析了人力资源数据挖掘的数据清理的基本方法(规范化和聚集等),以及一些商业工具的偏差检测过程.  相似文献   

10.
高质量的决策依赖于高质量的数据,数据预处理是数据挖掘至关重要的环节.传统的数据预处理系统并不能很好的适用于大数据环境,企业现阶段主要使用Hadoop/Hive对海量数据进行预处理,但普遍存在耗时长、效率低、无交互等问题.提出了一种基于Spark的交互式数据预处理系统,系统提供一套通用的数据预处理组件,并支持组件的扩展,数据以电子表格的形式展现,系统记录用户的处理过程并支持撤销重做.本文从数据模型、数据预处理操作、交互式执行引擎以及交互式前端四个方面描述了系统架构.最后使用医疗脑卒中的真实数据对系统进行验证,实验结果表明,系统能够在大数据场景下满足交互式处理需求.  相似文献   

11.
电子病历数据预处理技术   总被引:3,自引:0,他引:3  
多年积累的电子病历是一项重要的不可再生资源,对其数据的有效处理、利用是一项非常必要和有意义的工作。本文研究了电子病历数据前期处理的相关技术,涉及从电子文档资料到基础数据库的转换,对存入数据库的数据实施数据清理和数据变换等。通过数据预处理可以消除数据中的噪声、不完整和不一致性,实现数据的规范化和有效压缩,从而形成高质量的数据,可使数据的再处理(统计、数学建模、数据挖掘等)更加有效。  相似文献   

12.
13.
领域无关数据清洗研究综述   总被引:3,自引:2,他引:1  
对领域无关数据清洗的研究进行了综述。首先阐明了全面数据质量管理、数据集成和数据清洗之间的关系,着重说明了领域无关数据清洗的特点。将领域无关数据清洗方法分为基于特征相似度的方法、基于上下文的方法和基于关系的方法分别介绍。最后对领域无关数据清洗的研究方向进行了展望。  相似文献   

14.
原始体检数据存在信息模糊、有噪声、不完整和冗余的问题,无法直接用于疾病的风险评估与预测。由于体检数据在结构和格式等方面的不足,不适合采用传统的数据预处理方法。为了充分挖掘体检数据中有价值的信息,从多角度提出了针对体检数据的预处理方法:通过基于压缩方法的数据归约,降低了体检数据预处理的时间及空间复杂度;通过基于分词和权值的字段匹配算法,完成了体检数据的清洗,解决了体检数据不一致的问题;通过基于线性函数的数据变换,实现了历年体检数据的一致性和连续性。实验结果表明,基于分词和权值的字段匹配算法,相对于传统算法具有更高的准确性。  相似文献   

15.
一个可扩展的数据清洗系统   总被引:3,自引:1,他引:3  
在给数据挖掘这类应用准备数据的过程中,面临着一系列数据清洗问题,要把数据清洗过程做得很灵活并不容易,已有的工具往往过于依赖特定的应用,该文提出并实现了一个可扩展的数据清洗框架,它以术语模型、过程描述文件、共享库等概念和技术实现了模块的高度独立性和系统的可扩展性。并提供了一个可视化的流程定义环境。  相似文献   

16.
针对数据源中出现的错误数据,分析了孤立点检测方法在数据清理中的重要性,提出了一种基于孤立点检测的错误数据清理方法。在对常用孤立点检测方法进行比较、分析的基础上,采用一种有效的孤立点检测方法来检测数据源中的孤立点。最后,以一个实例验证了该方法的效果。研究表明:基于孤立点检测的错误数据清理方法能有效地检测数据源中的错误数据。  相似文献   

17.
ALCHEMIST is a general purpose transformation generating environment, which supports specification, generation and execution of data transformations. ALCHEMIST allows an abstract specification of the transformation through a window-based interface and supports the generation and compilation of transformation program code from these specifications. Unlike compiler-compilers, ALCHEMIST is intended to automate building transformations between two complex representation formats and is thus especially suitable for constructing transformations between database tools, CASE tools, graphical editors or text formatters. In this paper we describe the design principles and the structure of ALCHEMIST, and demonstrate its use. We also discuss our experiences with several example transformations and present a real-life case study of using ALCHEMIST for interfacing two software development environments.  相似文献   

18.
数据清理综述   总被引:16,自引:0,他引:16  
由于各种原因 ,数据中存在这样或那样的脏数据需要清理 (净化 )。特别是数据仓库、KDD及TDQM(综合数据质量管理 )中 ,必须对数据进行清理。介绍了数据清理的有关内容、技术与实现方案 ,着重介绍了目前的两个重点研究、应用内容 :异常发现与记录重复  相似文献   

19.
条件函数依赖(Conditional Functional Dependeny,CFD)是对函数依赖(Functional Depencency,FD)加入语义约束扩展而来,它在数据库一致性检测、数据清洗方面更优于后者.讨论了条件函数依赖的相关概念及其基本性质,讨论如何将它应用于数据清洗,并对已提出的基于CFD的数据清洗方案提出改进措施,并通过实验说明改进措施的可行性.  相似文献   

20.
随着物联网的兴起,数据的积累速度、维度以及体积等也越来越大,成了真正的大数据范畴。在农业温室大棚中部署的大量各种各样的传感器产生了大量多源异构的传感数据,而且这些数据中存在需要清洗的各种脏乱数据。本文按照数据清洗,模型构建和模型应用三个部分进行详述,首先介绍数据清洗技术和多源异构数据的融合技术,然后列举了常见的预测模型构建方法并分别指出了每种方法的适用情况,最后对常见的应用领域进行了综述和总结,并提出了目前还存在的问题,以及对未来的展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号