共查询到20条相似文献,搜索用时 203 毫秒
1.
数据仓库是进行多角度数据分析的基础,在审计中可借助数据仓库技术分析数据,用以辅助发现问题和锁定审计重点。数据仓库中的数据结构是面向数据分析设计的,在构建数据仓库时需要对原始操作型的数据进行适当的清理和转换,使其更适合分析的需求。本文介绍了构建审计分析数据仓库中常见的数据清理和数据转换问题以及相应的解决技术。 相似文献
2.
《计算机科学与探索》2017,(2):171-184
大规模数据集已经超过TB和PB级,现有的技术可以收集和存储大量的信息。虽然数据库管理系统一直在不断提高提供复杂的多种数据管理的能力,但是管理查询工具并不能满足大数据的需求,如何精准理解和探索这些大规模数据集仍然是一个巨大的挑战。交互式数据探索(interactive data exploration,IDE)的关注点是强调交互、探索和发现,能让用户从海量的数据中用最小的代价更精确地找到他们需要的信息。首先对交互式数据探索及其应用背景进行了介绍,总结了通用的探索模型和IDE的特点,分析了交互式数据探索中的查询推荐技术和查询结果优化技术的现状;随后分别对IDE原型系统进行了分析和比较;最后给出了关于交互式数据探索技术的总结和展望。 相似文献
3.
数据转换过程的串行化方法 总被引:2,自引:1,他引:2
随着数据仓库和数据集成的发展,数据清洗的工作越来越多,用户在进行数据清洗时需要对数据的内容进行多次处理。在设计清洗的建模过程中,用户可能对同一个数据进行多次的清洗和转换处理,由于步骤多,用户往往不知道清洗和转换步骤出现错误。该文对前述问题进行论述,并针对这种清洗和转换处理中的赋值冲突和范围冲突提出解决方法。 相似文献
4.
面向数据集成的ETL系统设计与实现 总被引:8,自引:1,他引:8
ETL是一类用于从一个或多个业务数据库中抽取数据,进行清理转换并加载到数据仓库中的工具。这个数据抽取、转换和加载的过程能够很好地应用于数据集成领域中,实现不同机构之间数据的交换与整合。通过分析数据集成的一些特点,我们提出了一个ETL过程模型,开发了一个面向数据集成的ETL系统DataIntegrator。本文对ETL过程模型、系统总体结构及若干关键技术进行论述。DataIntegrator已经应用于信息系统的建设中,为企业应用集成提供了很好的支持。 相似文献
5.
球坐标中等矩网络数据转换的递推算法 总被引:1,自引:0,他引:1
本文的为解决气象领域可视化中遇到的网格数据转换问题,提出了等矩网格数据转换的递推算法,并分析了算法的复杂性,本文最后给出了算法在交互式可视化系统MeteoVis中的应用结果。 相似文献
6.
7.
研究使用Adams用户子程序进行二次开发的方法实现对交互式仿真过程的控制.在每一步的仿真结束后与主系统进行数据的交互,将Adams仿真的控制权交给主系统,实现Adams与主系统的交互式仿真.最后,通过与传统仿真方法得到的数据结果的对比分析,验证应用Adams用户子程序实现对交互式仿真的控制方法的正确性、可行性. 相似文献
8.
9.
21世纪以来,人才成为各企业竞争的焦点,已有企业开始使用强大的数据挖掘进行人才的选用.作为数据挖掘的前期数据清理,影响着数据挖掘的效率.本文从数据清理的概念开始,浅析了人力资源数据挖掘的数据清理的基本方法(规范化和聚集等),以及一些商业工具的偏差检测过程. 相似文献
10.
高质量的决策依赖于高质量的数据,数据预处理是数据挖掘至关重要的环节.传统的数据预处理系统并不能很好的适用于大数据环境,企业现阶段主要使用Hadoop/Hive对海量数据进行预处理,但普遍存在耗时长、效率低、无交互等问题.提出了一种基于Spark的交互式数据预处理系统,系统提供一套通用的数据预处理组件,并支持组件的扩展,数据以电子表格的形式展现,系统记录用户的处理过程并支持撤销重做.本文从数据模型、数据预处理操作、交互式执行引擎以及交互式前端四个方面描述了系统架构.最后使用医疗脑卒中的真实数据对系统进行验证,实验结果表明,系统能够在大数据场景下满足交互式处理需求. 相似文献
11.
12.
13.
14.
原始体检数据存在信息模糊、有噪声、不完整和冗余的问题,无法直接用于疾病的风险评估与预测。由于体检数据在结构和格式等方面的不足,不适合采用传统的数据预处理方法。为了充分挖掘体检数据中有价值的信息,从多角度提出了针对体检数据的预处理方法:通过基于压缩方法的数据归约,降低了体检数据预处理的时间及空间复杂度;通过基于分词和权值的字段匹配算法,完成了体检数据的清洗,解决了体检数据不一致的问题;通过基于线性函数的数据变换,实现了历年体检数据的一致性和连续性。实验结果表明,基于分词和权值的字段匹配算法,相对于传统算法具有更高的准确性。 相似文献
15.
16.
17.
ALCHEMIST is a general purpose transformation generating environment, which supports specification, generation and execution of data transformations. ALCHEMIST allows an abstract specification of the transformation through a window-based interface and supports the generation and compilation of transformation program code from these specifications. Unlike compiler-compilers, ALCHEMIST is intended to automate building transformations between two complex representation formats and is thus especially suitable for constructing transformations between database tools, CASE tools, graphical editors or text formatters. In this paper we describe the design principles and the structure of ALCHEMIST, and demonstrate its use. We also discuss our experiences with several example transformations and present a real-life case study of using ALCHEMIST for interfacing two software development environments. 相似文献
18.
19.
条件函数依赖(Conditional Functional Dependeny,CFD)是对函数依赖(Functional Depencency,FD)加入语义约束扩展而来,它在数据库一致性检测、数据清洗方面更优于后者.讨论了条件函数依赖的相关概念及其基本性质,讨论如何将它应用于数据清洗,并对已提出的基于CFD的数据清洗方案提出改进措施,并通过实验说明改进措施的可行性. 相似文献
20.
随着物联网的兴起,数据的积累速度、维度以及体积等也越来越大,成了真正的大数据范畴。在农业温室大棚中部署的大量各种各样的传感器产生了大量多源异构的传感数据,而且这些数据中存在需要清洗的各种脏乱数据。本文按照数据清洗,模型构建和模型应用三个部分进行详述,首先介绍数据清洗技术和多源异构数据的融合技术,然后列举了常见的预测模型构建方法并分别指出了每种方法的适用情况,最后对常见的应用领域进行了综述和总结,并提出了目前还存在的问题,以及对未来的展望。 相似文献