首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
为了有效地清洗数据,此前已经提出了很多的完整性约束规则,例如条件函数依赖、条件包含依赖.这些约束规则虽然可以侦测出错误的存在,但是不能有效地指导用户纠正错误.实际上,基于约束规则的数据修复可能最终得不到确定性的修复结果,相反会引入新的错误,因此很大程度上降低了数据修复的效率.针对以上不足,提出了一种有效的数据清洗框架:首先基于Editing Rules和Master Data对数据进行清洗操作,最终得到确定性的修复;然后依据条件函数依赖来修复遗漏的错误,此种修复结果是不确定的,但是相比之下该框架不仅可以有效地保证数据修复的精确性与唯一性,而且提高了数据修复的效率.  相似文献   

2.
针对日前数据清洗框架中普遍存在的交互性和可扩展性差的问题,本文从数据清洗的定义出发,分析了数据清洗的原理和流程,并在此基础上提出了一种基于规则的交互式数据清洗框架.该框架具有较好的交互性、可扩展性和通用性.  相似文献   

3.
无检测器道路交通流数据质量检测方法   总被引:1,自引:0,他引:1  
一般交通流数据质量检测方法要求的原始数据量较大,而无检测器道路可获得的交通流数据又非常有限。为此,提出一种基于灰色系统理论的无检测器道路交通流数据质量检测方法。该方法将不同检测点获得的原始交通流数据处理成一组数据序列,通过对数据序列的灰生成、灰色关联度计算及标准化处理,求得不同数据序列相互间关系的密切程度参数λ_i,根据需求选出阈值λ,比较λ_i与λ之间的大小,实现无检测器道路交通流异常数据检测的目的。运用杭州市某一局部路网的浮动车交通流原始数据,将该方法与基于相似系数和的检测方法进行对比实验,结果证明,该方法的检测效果优于基于相似系数和的检测方法,平均错检率降低了21.00%,平均准确率提高了28.64%。  相似文献   

4.
以往数据清洗工具在三个方面存在不足:工具和用户之间缺少交互,用户无法控制过程,也无法处理过程中的异常;数据转化和数据清洗规则缺少逻辑描述,没有达到与物理实现的分离;缺少元数据管理,用户很难分析和逐步调整数据清洗过程。文中提出了一种新的基于规则描述的交互式数据清洗框架,解决了上述三个方面存在的不足,提高了数据清洗的效率,使得数据的质量得到保证。并通过描述清洗规则的定义和执行,详细阐述了该清洗框架的结构。  相似文献   

5.
以往数据清洗工具在三个方面存在不足:工具和用户之间缺少交互,用户无法控制过程,也无法处理过程中的异常;数据转化和数据清洗规则缺少逻辑描述,没有达到与物理实现的分离;缺少元数据管理,用户很难分析和逐步调整数据清洗过程.文中提出了一种新的基于规则描述的交互式数据清洗框架,解决了上述三个方面存在的不足,提高了数据清洗的效率,使得数据的质量得到保证.并通过描述清洗规则的定义和执行,详细阐述了该清洗框架的结构.  相似文献   

6.
朱会娟  蒋同海  周喜  程力  赵凡  马博 《计算机应用》2017,37(4):1014-1020
针对传统数据清洗方法通过硬编码方法来实现业务逻辑而导致系统的可重用性、可扩展性与灵活性较差等问题,提出了一种基于动态可配置规则的数据清洗方法——DRDCM。该方法支持多种类型规则间的复杂逻辑运算,并支持多种脏数据修复行为,集数据检测、数据修复与数据转换于一体,具有跨领域、可重用、可配置、可扩展等特点。首先,对DRDCM方法中的数据检测和数据修复的概念、实现步骤以及实现算法进行描述;其次,阐述了DRDCM方法中支持的多种规则类型以及规则配置;最后,对DRDCM方法进行实现,并通过实际项目数据集验证了该实现系统在脏数据修复中,丢弃修复行为具有很高的准确率,尤其是对需遵守法定编码规则的属性(例如身份证号码)处理时其准确率可达100%。实验结果表明,DRDCM实现系统可以将动态可配置规则无缝集成于多个数据源和多种不同应用领域且该系统的性能并不会随着规则条数增加而极速降低,这也进一步验证了DRDCM方法在真实环境中的切实可行性。  相似文献   

7.
基于规则引擎的数据清洗   总被引:9,自引:0,他引:9       下载免费PDF全文
叶舟  王东 《计算机工程》2006,32(23):52-54
以往的数据清洗研究存在以下缺陷:检测和修复动作要么使用灵活性差的硬编码,要么依靠灵活却低效的人工判断。该文提出了一个使用规则来描述清洗逻辑,使用规则引擎来执行清洗逻辑,从而能够处理各种数据质量问题的数据清洗架构REBDCA,解决了该问题。展示了REBDCA和一个ETL工具的集成,测试了REBDCA的性能,并和用硬编码完成相同逻辑的方案进行了性能对比。  相似文献   

8.
数据质量和数据清洗研究综述   总被引:75,自引:1,他引:75  
郭志懋  周傲英 《软件学报》2002,13(11):2076-2082
对数据质量,尤其是数据清洗的研究进行了综述.首先说明数据质量的重要性和衡量指标,定义了数据清洗问题.然后对数据清洗问题进行分类,并分析了解决这些问题的途径.最后说明数据清洗研究与其他技术的结合情况,分析了几种数据清洗框架.最后对将来数据清洗领域的研究问题作了展望.  相似文献   

9.
领域无关数据清洗研究综述   总被引:1,自引:2,他引:1  
对领域无关数据清洗的研究进行了综述。首先阐明了全面数据质量管理、数据集成和数据清洗之间的关系,着重说明了领域无关数据清洗的特点。将领域无关数据清洗方法分为基于特征相似度的方法、基于上下文的方法和基于关系的方法分别介绍。最后对领域无关数据清洗的研究方向进行了展望。  相似文献   

10.
实时、准确的交通流数据是实现智能运输系统(Intelligent Transportation Systems,简称ITS)的关键,对交通流的控制和诱导有直接影响。由于种种原因,通过交通检测器获得的数据往往是不完整的,存在丢失现象,影响了后续模型的实际应用效果。针对这一问题,提出一种基于最小二乘支持向量机 (Least Squares Support Vector Machines,简称LS-SVM) 的交通流时间序列数据补齐模型,利用交通流历史数据对丢失值进行诊断和修补。利用实例仿真验证表明,LS-SVM具有较好的泛化能力和很强的鲁棒性,采用基于LS-SVM的交通流时间序列模型补齐丢失数据能够取得很好的效果。  相似文献   

11.
交通流量数据的分类规则挖掘   总被引:2,自引:0,他引:2  
巩帅 《计算机工程与应用》2006,42(6):219-220,232
概述了数据挖掘的分类算法,并简要介绍了C5.0决策树算法。以北京市“三横两纵”主干道交通流量数据为例,采用C5.0决策树算法提取交通流量的分类规则,用于分析交通流量规律、信息模式和数据趋势,并对分类树进行量化,为交通信号设计、路网规划、道路设计、路网节点设计等提供决策支持。  相似文献   

12.
针对交通流数据分析滞后,交通规划效率不高等问题,提出了一种基于计算机数据算法模型的计算机数据算法数据分析方法,该方法采用基于S3C6410处理器的采集模块对影响交通流的数据进行采集或者分析,在进行数据信息采集时,还通过JZ863的无线传输模块实现数据信息传输,并通过神经网络算法模型提高了交通流数据信息分析能力。实验结果显示,本研究系统检测到发生故障的数据量数高达4735个,交通检测精度较高。  相似文献   

13.
路伟  鲍远律  白皓 《计算机工程》2011,37(4):107-109
针对移动自组织网络在车-车间无线通信系统的应用问题,提出一种简单有效的蒙特卡洛仿真模型。通过网络仿真器NS-2构建单向均匀交通流和带激波交通流的通信场景,采用计算信息传递吞吐量和平均端到端的方法延迟来评价车-车间通信网络的性能。仿真结果表明,与连通性模型相比,该方法可得到良好的评估效果。  相似文献   

14.
在萤火虫优化算法和T-S模糊神经网络的基础上,提出了一种采用萤火虫算法优化的T-s模糊神经网络预测交通流量的算法。该算法利用萤火虫算法得到T_s模糊神经网络的最优参数配置,从而能发挥T-s模糊神经网络泛化的映射能力。将该算法应用到实测交通流中进行算法的有效性验证,并与传统的T-s模糊神经网络和遗传算法优化的T-S模糊神经网络进行比较,仿真结果表明该算法具有更高的预测准确性,从而证明了该算法在交通流量预测领域的可行性和有效性。  相似文献   

15.
GIS and ITS Traffic Assignment: Issues in Dynamic User-Optimal Assignments   总被引:1,自引:1,他引:0  
Dynamic traffic assignment (DTA) is at the heart of much ITS research. Assigning traffic, whether for planning purposes or for real time route guidance, is a difficult problem. Recent advances in user-optimal dynamic traffic assignment have built on the methods developed for static user-optimal assignments. Since assignment models are complex, they will not use many of the network analysis functions found in commercial GIS packages. Custom software will have to be developed. In this paper we explore the problems faced in solving static and dynamic assignments and relate those problems to information that is likely to be based in a traffic control centers GIS database. Because of the size of the problem and the need for faster-than-real-time analysis, how and when data is transferred between a GIS to analysis modules is important. Further, many approaches for GIS software design and spatial data handling, such as OOP and dynamic segmentation, may impose too much overhead to be of much use in time-sensitive ITS applications.  相似文献   

16.
In this paper, two cellular automata traffic models are proposed to simulate the operation of an expressway. The results show that the flow rate and the average velocity are generally equal in the same density which is different among the lanes. The analysis of lane changing times and the velocity total deviation show some characteristics which are difficult to explain phase transitions under fundamental diagram theory. Therefore, the concept of lane changing probability is introduced, and it is concluded that the speed-limit rule can reduce the motivation of lane changing effectively.   相似文献   

17.
面向城市道路交通状态估计的数据融合研究   总被引:2,自引:0,他引:2       下载免费PDF全文
实时道路交通状态估计是ATMS和ATIS的重要内容。布设于城市道路网络中的各类检测器提供了丰富实时的动态信息。针对目前我国各检测器间相互独立形成信息孤岛、数据参数多样、结构迥异、采样周期和精度不一等现状,采用贝叶斯估计、模糊逻辑等数据融合方法建立多源异构交通信息三层次融合体系,得到精度更高、可靠性更强的交通信息。实例证明,数据融合适用于城市道路交通状态估计。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号