首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
何利娟 《福建电脑》2012,28(5):148-149
本文主要对应用ODBC API技术进行数据转换进行论述,首先讨论进行数据库访问的步骤,然后讨论了使用该技术进行数据转换的关键是先读取数据源的元数据再对转换的数据类型进行对应最后对在数据转换过程中遇到的冲突及处理方法进行讨论。  相似文献   

2.
数据ETL工具通用框架设计   总被引:18,自引:0,他引:18  
异构多数据源集成和数据清洗是将操作数据导入数据仓库过程中面临的两大挑战。从实践角度设计了数据ETL工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清洗为主要目的,为消除多数据源的模式冲突和数据冲突提供了通用而有效的解决方案。  相似文献   

3.
施滔滔  马永征 《计算机工程》2014,(2):119-122,133
移动科研在线是协同工作环境套件Duckling的应用之一,但由于移动计算环境存在低带宽、长延迟和频繁断接等问题,当多个用户对同一数据进行操作时容易引发冲突,因此冲突处理和数据同步是该应用的关键问题。为此,提出一种基于冲突解决的数据同步策略。给出数据同步的总体框架和策略,分析冲突处理流程,根据冲突发生的场景,结合用户分类和优先级建立消息推送模型。以移动科研在线中的团队通讯录为例在Android平台上进行原型实现,结果显示,该策略可有效节约网络带宽,提高同步效率,具有良好的用户体验。  相似文献   

4.
原始RFID数据流上复杂事件处理研究   总被引:1,自引:0,他引:1  
一般的RFID复杂事件检测是建立在经过数据清洗的数据模型上,但RFID数据清洗往往代价较高且目的单一,更为影响效率的是其数据清洗步骤和复杂事件处理步骤需要扫描数据流两次.针对这些问题,提出直接在原始RFID数据流上进行复杂事件处理,将数据清洗步骤与复杂事件处理步骤相结合的方法,并设计出了集成此方法的复杂事件处理引擎架构,最后编程实现了上述架构的处理引擎.通过大量对比实验分析验证了该方法的正确性与高效性.  相似文献   

5.
针对传统知识库表示的局限性,通过分解和重组领域知识,建立扩展树状结构的知识库,其中叶结点对应具体知识实例,称为原子知识,非叶结点只对应知识概念。同时提出相关的数据清洗算法,根据用户的选择,自动提取原子知识进行分析,消除重复,按照处理权重建立原子知识序列,然后逐一对数据进行清洗。实验表明,该算法能有效优化用户的请求,减少对海量数据的遍历次数,海量数据的清洗效率明显提高。  相似文献   

6.
目前常规的多源异构数据治理方法主要通过对数据属性进行判断,从而实现分区域数据清洗,由于缺乏对非线性数据的分析,导致治理性能不佳;对此,提出基于云数据中心的多源异构数据治理技术;采用关系型数据库中的ETL功能对数据进行清洗,对数据转换模式以及数据清洗规则进行定义;引入互信息系数对数据相关程度进行判定,并进行非线性数据相关性分析;以云数据中心作为载体,对多源异构数据治理体系进行构建;在实验中,对提出的数据治理技术进行了治理性能的检验;最终的实验结果表明,提出的数据治理技术具备较高的查准率,对云数据中心多源异构数据具备较为理想的数据治理效果。  相似文献   

7.
朱会娟  蒋同海  周喜  程力  赵凡  马博 《计算机应用》2017,37(4):1014-1020
针对传统数据清洗方法通过硬编码方法来实现业务逻辑而导致系统的可重用性、可扩展性与灵活性较差等问题,提出了一种基于动态可配置规则的数据清洗方法——DRDCM。该方法支持多种类型规则间的复杂逻辑运算,并支持多种脏数据修复行为,集数据检测、数据修复与数据转换于一体,具有跨领域、可重用、可配置、可扩展等特点。首先,对DRDCM方法中的数据检测和数据修复的概念、实现步骤以及实现算法进行描述;其次,阐述了DRDCM方法中支持的多种规则类型以及规则配置;最后,对DRDCM方法进行实现,并通过实际项目数据集验证了该实现系统在脏数据修复中,丢弃修复行为具有很高的准确率,尤其是对需遵守法定编码规则的属性(例如身份证号码)处理时其准确率可达100%。实验结果表明,DRDCM实现系统可以将动态可配置规则无缝集成于多个数据源和多种不同应用领域且该系统的性能并不会随着规则条数增加而极速降低,这也进一步验证了DRDCM方法在真实环境中的切实可行性。  相似文献   

8.
当前很多的数据管理应用都需要从多个数据源集成数据,每个数据源都会提供一组值,并且不同的数据源常常提供相互冲突的数据值.为了提供给用户高质量的数据值,关键是数据集成系统能够解决数据冲突问题,提取出正确的数据值.文中对已有的真值发现算法进行了分析与总结,通过考虑处理同一个值的不同表现形式和改进的选票算法,作者对现有方法给出了改进,改进后的方法可以更有效地在众多冲突数据中找出正确的数据值.  相似文献   

9.
针对数据清洗中规则间逻辑冲突频发和出错率高的问题,提出一种基于偏序集的规则链自动生成方法。通过分层组合的数据清洗框架自顶向下对规则进行分类处理,采用偏序集和哈斯图自动生成每个层级的逻辑正确和一致的规则链,并设计出对应的生成算法和自动清洗算法。以扶贫领域数据为例进行实验,结果表明该方法使数据清洗效率有一定提升,清洗结果出错率明显降低,检验了方法的科学性和有效性。  相似文献   

10.
数据集成是信息系统集成的基础,它为数据仓库提供高质量的数据来源,一个高效的、可扩展的数据清洗模型是数据集成系统的关键因素。本文提出了基于多数据缓冲和数据转换插件之上的数据清洗模型。  相似文献   

11.
目前绝大部分冲突消解方法都是基于迭代计算数据源可靠度和事实可信度的机制。当数据源较少时,数据源的可靠度难于进行评估,仅凭投票来消解冲突往往会造成较大误差。针对数据源较少时的冲突消解问题,提出基于常量条件函数依赖的冲突消解算法。根据多个数据源之间的冲突,找出冲突匹配对及对应的冲突候选值集合。考虑常量条件函数依赖中具体到部分实例子集的约束关系,将常量条件函数依赖集作为先验知识,通过判断候选值是否符合常量条件函数依赖来选择正确的候选值,避免了错误数据比例较大时直接投票选择产生的误差。通过两个真实数据集上的对比实验验证了上述算法的有效性。  相似文献   

12.
位置编码在数据仓库ETL中的应用   总被引:6,自引:0,他引:6       下载免费PDF全文
为了保证数据仓库中数据的质量,在数据挖掘前必须进行数据清洗。ETL是构建数据仓库的重要环节,数据清洗就包含在其中。而检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的关键问题之一。该文将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法,并给出了不同级别匹配阈值的动态确定方法。通过实验表明该算法具有较好的检测效果。  相似文献   

13.
一个可扩展的数据清洗系统   总被引:3,自引:1,他引:3  
在给数据挖掘这类应用准备数据的过程中,面临着一系列数据清洗问题,要把数据清洗过程做得很灵活并不容易,已有的工具往往过于依赖特定的应用,该文提出并实现了一个可扩展的数据清洗框架,它以术语模型、过程描述文件、共享库等概念和技术实现了模块的高度独立性和系统的可扩展性。并提供了一个可视化的流程定义环境。  相似文献   

14.
随着物联网的兴起,数据的积累速度、维度以及体积等也越来越大,成了真正的大数据范畴。在农业温室大棚中部署的大量各种各样的传感器产生了大量多源异构的传感数据,而且这些数据中存在需要清洗的各种脏乱数据。本文按照数据清洗,模型构建和模型应用三个部分进行详述,首先介绍数据清洗技术和多源异构数据的融合技术,然后列举了常见的预测模型构建方法并分别指出了每种方法的适用情况,最后对常见的应用领域进行了综述和总结,并提出了目前还存在的问题,以及对未来的展望。  相似文献   

15.
移动数据库系统中数据更新与数据广播并发处理,导致移动客户读取的数据可能不一致。文章分析了并发处理中的数据冲突并提出了基于ECA原则的并发控制策略。  相似文献   

16.
神经网络数据挖掘方法中的数据准备问题   总被引:16,自引:2,他引:14  
文章讨论了神经网络数据挖掘方法中的数据准备问题.首先简要介绍数据清洗与选择的基本方法,然后详细论述数据预处理、数据表示和数据集管理等方面的问题.  相似文献   

17.
Data science requires constructing data processing pipelines (DPPs), which span diverse phases such as data integration, cleaning, pre-processing, and analysis. However, current solutions lack a strong data engineering perspective. As consequence, DPPs are error-prone, inefficient w.r.t. human efforts, and inefficient w.r.t. execution time. We claim that DPP design, development, testing, deployment, and execution should benefit from a standardized DPP architecture and from well-known data engineering solutions. This claim is supported by our experience in real projects and trends in the field, and it opens new paths for research and technology. With this spirit, we outline five research opportunities that represent novel trends towards building DPPs. Finally, we highlight that the best DOLAP 2019 papers selected for the DOLAP 2019 Information Systems Special Issue fall in this category and highlight the relevance of advanced data engineering for data science.  相似文献   

18.
移动数据库系统中数据更新与数据广播并发处理,导致移动客户读取的数据可能不一致,本文分析了在移动数据库中数据更新与数据广播并发处理中可能出现的三类数据冲突,并提出了基于UFBL0原则的并发控制策略来解决上述的问题。该策略具有较好的独立性,对服务器和移动客户机的影响都较小,并且可以较大限度地提高广播给用户的数据项当前性。  相似文献   

19.
1 多维数据模型概述多维数据模型因为能够有效地支持联机分析处理(online analysis processing,OLAP)而引起了人们越来越多的注意。最近几年,人们提出了几种多维数据模型。这些数据模型把数据集合视为多维空间中的点集,把数据集合的属性分为维和度量两类。维属性用来描述度量属性,是多维空间的维度。度量属性的值用来做分析处理,是多维空间中的点。最初的模型不能表示维层次结构,进一步能够表达简单的维层次结构(即只有一条路径的层次结构),后来能够表示满足具有  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号