首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 62 毫秒
1.
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%、96.5%,能够满足工程应用的要求。  相似文献   

2.
数据ETL过程中的实体识别方法   总被引:3,自引:0,他引:3  
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现了语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%,96.5%,能够满足工程应用的要求。  相似文献   

3.
非结构化数据的ETL设计   总被引:1,自引:0,他引:1  
为了实现非结构化数据的ETL处理,分析了数据整合的发展现状和业务需求,描述了目前国际流行的公共仓库元模型(CWM)以及在ETL实现中的作用,详细分析了结构化数据和非结构化数据的不同特点。针对两种数据的差异,提出了解决非结构化数据的属性提取和数据打包的方法,为非结构化数据形成元数据奠定了基础,从而实现了非结构化数据的ETL设计,设计完全满足标准的数据整合要求。  相似文献   

4.
信息化是当今世界的重要发展趋势,且应用于多个领域。高校是我国培养人才的重要媒介,提升高校的信息化建设水平,可以有效加强高校的人才培养质量。文章分析了ETL数据治理在高校信息化建设中的运用,找出了ETL数据处理存在的不足,并分析了出现的问题,找出最佳解决办法,总结了ETL数据治理在高校信息化建设中的运用方法。  相似文献   

5.
《信息技术》2017,(10):133-136
信息处理技术的不断变革,使每个行业都拥有了许多计算机信息系统,同时也产生了大量的数据。因此能够使数据有效地进行组织的日常运作和判断,要求数据可靠准确是研究的热点,文中提出了一种ETL与数据清洗结合的分布式数据集成工具,将数据清理的技术引入到ETL中,制定数据清洗规则,并基于统计的方法,聚类方法,关联规则的方法等提出数据清洗的算法,并进行比较,提出清洗数据信息的框架,从而提高数据的质量,进行数据清洗评估,认为方法可行有效,具有实际应用意义。  相似文献   

6.
随着科技信息的发展,数据质量问题一直是数据挖掘过程中密切关注的问题.首先,对大数据时代下数据挖掘的基本过程进行阐述,分析数据清洗需要处理的问题,同时说明数据清洗的原理、进行数据清洗的系统框架.最后提出进行数据清洗应当注重的大数据思维和数据清洗发展方向.  相似文献   

7.
文章针对ETL技术下的装备大数据治理应用进行研究,获取相关的数据信息,主要目的就是帮助军用和民用装备领域能够更好地处理数据融合方面的问题。基于此,文章提出一套较为详细的治理方案,涵盖清洗服务、数据抽取和加载等方面的内容,同时在现有技术基础上提出标准统一和增量抽取等应用技术,这些都将为数据高效融合提供重要的途径。  相似文献   

8.
基于ETL和JMS的数据同步的设计与实现   总被引:1,自引:0,他引:1  
黄瑛  邓东华  廖德利 《信息技术》2009,33(12):49-51
分析了发电集团级数据的同步需求,提出采用ETL技术进行数据抽取和转换,并将数据提供给消息发送者(JMS服务),采用JMS技术进行数据传输和消息发送。通过分析实例描述了系统的设计思路和实现方法,并给出了关键技术的主要代码,成功实现了异构数据库的数据同步。  相似文献   

9.
《信息技术》2019,(12):165-168
在处理某大型企业的海量后勤大数据时,传统的基于MapReduce的ETL技术在数据提取、转换过程中,因为频繁进行磁盘读取的原因,存在数据处理效率不足的问题。考虑到Spark是基于内存操作的计算引擎,不依赖于磁盘操作,对数据的提取、转换效率的提升有一定帮助,因此文中采用了基于Spark的分布式ETL技术来处理这些海量数据,并通过实验进行效率比较。  相似文献   

10.
讨论了在线式多晶制绒清洗设备系统数据质量控制的软件设计与实现方法,通过建立一种动态存取的数据映射.实现了对数据的采集、数据整合和数据清洗,建立一个可重复的数据收集、修改和维护的流程。实践证明,该数据质量控制的方法有效地提高了软件控制系统的效能。  相似文献   

11.
数据抽取、转换和装载(Extract,Transform and loading,简称ETL)是数据仓库、数据挖掘以及商业智能等技术的基石.文中首先简单介绍了ETL概念及其意义,然后设计和开发了应用于超市行业商业智能的ETL程序,已在超市行业管理信息与决策支持系统中得到应用.  相似文献   

12.
银行数据仓库系统中ETL的总体设计与实现   总被引:2,自引:0,他引:2  
从银行数据仓库系统中数据的抽取、转换和上载(Extraction Transformation and Loading,ETL)的总体设计出发,分别阐述了EDW-ETL和OLAP-ETL的设计策略及实现方法,给出了实现完整的银行数据仓库系统的ETL方案。该方案对企业实现数据集中、规划和建设数据仓库系统,具有一定的借鉴意义。  相似文献   

13.
针对银联数据的特点,设计实现了银联数据仓库ETL系统。该系统采用模块化的设计方式,增强了系统的可控性和灵活性。元数据模块使ETL系统能够灵活地适应银联业务逻辑的频繁变化;调度模块采用线程池技术.改进了以往多线程技术,提高了数据抽取的效率和系统资源的使用率;日志、监控信息及通知模块解决了系统出错快速恢复的问题。测试表明该ETL系统很好地满足了银联的需求。  相似文献   

14.
蔡胤  肖敦辉 《电子科技》2010,23(5):18-22
结合三峡库区地质灾害数据仓库框架和库区数据的特点,提出了一套地质灾害数据仓库的ETL解决方案,并针对数据抽取、转换、加载等关键技术进行了研究,最后以单体地质灾害(滑坡)为例,说明了地质灾害数据仓库ETL的具体实现过程。  相似文献   

15.
张永威 《电子测试》2016,(19):125-126
随着社会的不断发展,我国的机械制造行业也在不断地进步,机械加工也已经得到普遍使用.其中先进技术的使用和优质机械的生产是机械加工企业前进的目标.所以,对于机械加工过程中对产品质量进行严格控制,这是企业发展的要求.本文主要是分析目前机械加工过程中的质量控制存在的不足,并提出有效的控制措施,希望能够促进机械行业的发展.  相似文献   

16.
针对国内首部固态、多观测模式体制的Ka波段毫米波云雷达观测资料,提出速度模糊、噪点-径向干扰杂波和悬浮物杂波的质量控制方法,并对方法效果进行了检验和分析.结果表明,该方法具有很好的成功率和稳定性,15个云过程检验的退模糊成功率都达到100%;能准确判断出速度模糊和类型并纠正平均多普勒速度和谱宽;能较好地滤除噪点和径向干扰杂波,并对缺测进行补值;能较好去除低空悬浮物杂波,同时保留小尺度的云.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号