首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
高质量的决策依赖于高质量的数据,数据预处理是数据挖掘至关重要的环节.传统的数据预处理系统并不能很好的适用于大数据环境,企业现阶段主要使用Hadoop/Hive对海量数据进行预处理,但普遍存在耗时长、效率低、无交互等问题.提出了一种基于Spark的交互式数据预处理系统,系统提供一套通用的数据预处理组件,并支持组件的扩展,数据以电子表格的形式展现,系统记录用户的处理过程并支持撤销重做.本文从数据模型、数据预处理操作、交互式执行引擎以及交互式前端四个方面描述了系统架构.最后使用医疗脑卒中的真实数据对系统进行验证,实验结果表明,系统能够在大数据场景下满足交互式处理需求.  相似文献   

2.
贾荣珍  林胜 《测控技术》1996,15(6):54-56
研制飞行模拟器需要大量的飞机原始数据,其中许多数据在系统运行时要频繁进行插值计算。因此,研究快速插值对于飞行模拟器实时运行至关重要。本介绍一种有效的数据预处理和函数生成的方法。  相似文献   

3.
面对利用ZigBee协议构建大规模物联网时存在诸多如路由开销、参数选择、网络性能等方面的问题,本文选择绕过底层多区域物联网的组建,利用云平台构建逻辑上的大规模物联网.同时针对物联网中应用种类和数量较多而ZigBee协议数据传输能力有限的问题,提出了在ZigBee协调器节点进行数据过滤和融合的预处理操作.  相似文献   

4.
陈荣旺  郭红 《福建电脑》2007,(6):19-19,16
数据预处理是Web日志挖掘中的关键和重要一步,文章分析了Web日志挖掘的数据预处理过程,并给出基于日志参引页的用户识别、路径补全算法和基于一种时间窗口模型的会话划分算法。  相似文献   

5.
数据预处理将原始的真实数据库转换成适于数据挖掘的挖掘数据库,为挖掘算法更好的实现以及挖掘结果形象的显示打下了良好的基础。本文针对结构化数据讨论了数据预处理的两个目标:消除现实数据库中的数据缺陷;为数据挖掘做准备。  相似文献   

6.
党怀义 《测控技术》2014,33(3):49-52
针对飞行试验数据的海量非结构化的特点以及当前所面临的处理与应用问题,研究分析当前新兴的云技术,提出了飞行试验数据云计算应用架构的3个组成要素:设备系统、云存储和云计算。面向试飞数据工程应用,以试飞科目、试验动作段为频度矩阵建立试飞元数据存储阵列,实现海量非结构化试飞数据的云存储应用;以SOA架构为基础,结合面向应用的处理功能组件,实现分布式网络计算调度和计算群集,为用户提供高效的云计算服务。工程实践应用表明,该系统以灵活架构有效地解决了非结构化大数据信息的高效存储、统一管理和共享应用,实现了海量试飞数据的快速分析处理,展示了云计算技术的先进特点。  相似文献   

7.
互联网时代背景下,如何提供高效并精确的文献检索服务是目前图书馆文献检索领域的难题.针对这一问题,首先分析了现阶段图书馆信息检索领域的研究方向和应用需求,然后提出基于Spark内存计算框架的文献检索服务方案,通过添加惩罚系数对Spark推荐算法进行了优化,最后以某高校图书馆近5年的检索数据进行反演.研究发现:首先,基于S...  相似文献   

8.
随着物联网发展速度的不断加快,对海量数据处理技术也提出了更高的要求。物联网数据具有实时性、海量性与多态性、异构性等特点,因此其海量数据处理技术也具有一定的特殊性。针对物联网海量数据的新需求,本文首先对物联网数据海量性、异构性、数据多维性与数据关联性、实时性与动态化等特点进行了分析,在此基础上主要分析与研究了物联网海量数据处理的数据库技术,包括分布式内存数据库技术与分布式实时数据库技术两种。  相似文献   

9.
基于多项式回归算法的飞参记录数据预处理研究   总被引:1,自引:0,他引:1  
提出利用多项式回归算法对飞参记录数据存在的随机量测误差、野点以及数据丢失等现象进行有效的数据预处理,算法在消除量测误差、剔除和补正野点、补充丢失的数据及数据平滑等方面均具有较高的精度和可靠性并已有效地应用在多型飞机飞参记录数据预处理工作中。利用该算法在Matlab环境下对飞参记录的航姿系统俯仰通道部分数据预处理过程进行了仿真。  相似文献   

10.
为保证系统的可扩展性和容错性,Alluxio简化了文件系统实现,不支持数据随机访问,但在实际情况中仍有许多应用需要数据随机访问。Alluxio原生Java接口灵活性较差,不支持传统应用,不能完全发挥内存的高速性能。因此在深入分析Alluxio数据读写原理后,提出了新式数据随机访问方法,其核心思想是改变原有数据访问和缓存时机,将对Alluxio中的文件读写转化为对本地内存文件系统的文件读写,从而实现对数据的随机访问。在此基础上,还可以使用内存映射技术进一步提高本地文件的读写性能。测试结果表明,该方法的数据读取性能提升了14.5%,写入性能提升了1.4倍以上。在实际应用场景中合理使用Alluxio及新式数据随机访问方法,可获得数倍至数十倍的性能提升。  相似文献   

11.
目前的数据挖掘技术基本上依据的是原始数据库中的信息,数据预处理技术要维护原始数据库的信息基本不变,只是进行简单的数据标准化、数据平整、异常点发现、缺失数据修补、数据离散等基本预处理工作,不能从根本上拓展原始数据库中的信息。同时,为保密起见,兴起的隐私保护数据挖掘技术对原始数据库中的敏感数据进行处理,隐藏了一些基本信息,进一步弱化了原始数据库中的信息含量。基于属性拓展的数据挖掘预处理技术,从原始数据库出发,通过属性拓展,拓展基础数据库所蕴含的信息,使数据挖掘能产生更深的隐藏关联规则。  相似文献   

12.
Web日志挖掘中的数据预处理技术研究   总被引:30,自引:0,他引:30  
赵伟  何丕廉  陈霞  谢振亮 《计算机应用》2003,23(5):62-64,67
在Web数据挖掘研究领域中,Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用。文中深入探讨了数据预处理环节的主要任务,并介绍这个过程中一些特殊情况的处理方法。  相似文献   

13.
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。  相似文献   

14.
Web日志挖掘可以使我们发现Web用户潜在的使用规律和模式。为了将存在着缺失、错误、噪音的原始Web日志数据转化为可靠、完整、准确的用户访问事务数据库,数据预处理工作是十分关键和重要的一步。文章就Web日志挖掘的预处理模型进行了深入的研究,并将其应用到实际日志数据预处理中,得到了理想的结果。  相似文献   

15.
分布共享存储的遥感图像并行预处理系统结构研究   总被引:1,自引:0,他引:1       下载免费PDF全文
随着遥感技术的发展,遥感图像的分辨率和采样率越来越高,对遥感图像预处理系统性能的要求也日益提高。本文介绍一种能高效实现遥感图像预处理的分布共享存储并行处理系统结构。  相似文献   

16.
Web访问挖掘的预处理技术的研究   总被引:1,自引:1,他引:1  
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。  相似文献   

17.
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。  相似文献   

18.
在数据挖掘之前对待挖掘数据进行一些选择与准备的预处理工作,可以对数据挖掘的过程和结果产生直接影响。其中数据缩减技术最大限度地精简数据量,提高数据挖掘的执行速度与效率。论述一些典型的数据缩减方法,说明典型方法的应用情况,分析典型方法的使用特点,通过对训练集数据的应用对数据缩减方法进行研究。  相似文献   

19.
Web日志挖掘的数据预处理研究   总被引:7,自引:0,他引:7  
分析了Web日志挖掘的数据预处理过程,提出了基于日志引用页的用户识别算法,并对其性能进行分析,最后给出了应用实例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号