首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
轨迹大数据:数据处理关键技术研究综述   总被引:5,自引:3,他引:5  
高强  张凤荔  王瑞锦  周帆 《软件学报》2017,28(4):959-992
大数据时代下移动互联网发展与移动终端的普及形成了海量移动对象轨迹数据.轨迹数据含有丰富的时空特征信息,通过轨迹数据处理技术可以挖掘人类活动规律与行为特征、城市车辆移动特征、大气环境变化规律等信息.海量的轨迹数据也潜在性地暴露移动对象行为特征、兴趣爱好和社会习惯等隐私信息,攻击者可以根据轨迹数据挖掘出移动对象的活动场景、位置等属性信息.另外,量子计算因其强大的存储和计算能力成为大数据挖掘重要的理论研究方向,用量子计算技术处理轨迹大数据可以使一些复杂的问题得到解决并实现更高的效率.本文对轨迹大数据中数据处理关键技术进行综述.首先,介绍轨迹数据概念和特征,并且总结了轨迹数据预处理方法包括噪声滤波、轨迹压缩等.其次,归纳轨迹索引与查询技术,以及轨迹数据挖掘已有的研究成果包括模式挖掘、轨迹分类等.总结了轨迹数据隐私保护技术基本原理和特点,介绍了轨迹大数据支撑技术如处理框架、数据可视化.本文也讨论了轨迹数据处理中应用量子计算的可能方式,并且介绍了目前轨迹数据处理中所使用的核心算法所对应的量子算法实现.最后,对轨迹数据处理面临的挑战与未来研究方向进行了总结与展望.  相似文献   

2.
数据预处理将原始的真实数据库转换成适于数据挖掘的挖掘数据库,为挖掘算法更好的实现以及挖掘结果形象的显示打下了良好的基础。本文针对结构化数据讨论了数据预处理的两个目标:消除现实数据库中的数据缺陷;为数据挖掘做准备。  相似文献   

3.
众源轨迹的泛在、实时特性,使其成为道路信息快速获取与更新的重要途径.针对矢量道路数据的变化检测与更新问题,提出了一种基于车辆轨迹大数据的道路网快速变化发现与更新方法.1)以道路弧段为基本单元构建缓冲区,根据道路变化信息类型及表现形式,运用轨迹运动几何信息(方向、转角)与交通语义信息(速度、流量),对道路变化信息进行检测、分类,确定道路变化类型;2)将道路变化类型推断与增量信息提取相结合,分别运用Delaunay三角网、交通流时间序列分析提取增量信息;3)根据变化类型进行增量信息融合.运用深圳市出租车GPS轨迹数据进行实验分析,结果表明:该方法相比常规方法能正确判断道路变化类型、区分真实变化与语义变化,增量信息精度提高约18%,且适于图层级的批处理快速更新.  相似文献   

4.
时空轨迹大数据模式挖掘研究进展   总被引:3,自引:4,他引:3  
时空轨迹挖掘是数据挖掘领域的前沿研究课题,通过研究和开发时空轨迹挖掘技术,来发现隐藏在轨迹大数据中有价值的规律和知识以供决策支持。本文介绍了时空轨迹大数据模式挖掘与知识发现领域的研究进展;然后对时空轨迹模式挖掘技术产生的背景、应用领域和研究现状作了简介,并探讨了面向时空轨迹大数据模式挖掘的研究内容、系统架构以及关键技术,最后对时空轨迹频繁模式、伴随模式、聚集模式和异常模式的挖掘算法思想进行了阐述。  相似文献   

5.
位置大数据的价值提取与协同挖掘方法   总被引:3,自引:0,他引:3  
郭迟  刘经南  方媛  罗梦  崔竞松 《软件学报》2014,25(4):713-730
随着位置服务和车联网应用的不断普及,由地理数据、车辆轨迹和应用记录等所构成的位置大数据已成为当前用来感知人类社群活动规律、分析地理国情和构建智慧城市的重要战略性资源,是大数据科学研究极其重要的一部分.与传统小样统计不同,大规模位置数据存在明显的混杂性、复杂性和稀疏性,需要对其进行价值提取和协同挖掘,才能获得更为准确的移动行为模式和区域局部特征,从而还原和生成满足关联应用分析的整体数据模型.因此,着重从以下3个方面系统综述了针对位置大数据的分析方法,包括:(1)针对数据混杂性,如何先从局部提取出移动对象的二阶行为模式和区域交通动力学特征;(2)针对数据复杂性,如何从时间和空间尺度上分别对位置复杂网络进行降维分析,从而建立有关社群整体移动性的学习和推测方法;(3)针对数据的稀疏性,如何通过协同过滤、概率图分析等方法构建位置大数据全局模型.最后,从软件工程角度提出了位置大数据分析的整体框架.在这一框架下,位置数据将不仅被用来进行交通问题的分析,还能够提升人们对更为广泛的人类社会经济活动和自然环境的认识,从而体现位置大数据的真正价值.  相似文献   

6.
原始体检数据存在信息模糊、有噪声、不完整和冗余的问题,无法直接用于疾病的风险评估与预测。由于体检数据在结构和格式等方面的不足,不适合采用传统的数据预处理方法。为了充分挖掘体检数据中有价值的信息,从多角度提出了针对体检数据的预处理方法:通过基于压缩方法的数据归约,降低了体检数据预处理的时间及空间复杂度;通过基于分词和权值的字段匹配算法,完成了体检数据的清洗,解决了体检数据不一致的问题;通过基于线性函数的数据变换,实现了历年体检数据的一致性和连续性。实验结果表明,基于分词和权值的字段匹配算法,相对于传统算法具有更高的准确性。  相似文献   

7.
基准测试程序是评估计算机系统的关键测试工具。然而,大数据时代的到来使得开发大数据系统基准测试程序面临着更加严峻的挑战,当前学术界和产业界还不存在得到广泛认可的大数据基准测试程序包。文章利用实际的交通大数据系统构建了一个基于Hadoop平台的交通大数据基准测试程序包SIAT-Bench。通过选取多个层次属性量化了程序行为特征,采用聚类算法分析了不同程序-输入数据集对的相似性。根据聚类结果,为SIATBench选取了有代表性的程序和输入数据集。实验结果表明,SIAT-Bench在满足程序行为多样性的同时消除了基准测试集中的冗余。  相似文献   

8.
时空轨迹大数据分布式蜂群模式挖掘算法   总被引:1,自引:0,他引:1  
针对时空轨迹大数据的蜂群模式挖掘需求,提出了一种高效的基于MapReduce的分布式蜂群模式挖掘算法。首先,提出了基于最大移动目标集的对象集闭合蜂群模式概念,并利用最小时间支集优化了串行挖掘算法;其次,提出了蜂群模式的并行化挖掘模型,利用蜂群模式时间域无关性,并行化了聚类与子时间域上的蜂群模式挖掘过程;第三,设计了一个基于MapReduce链式架构的分布式并行挖掘算法,通过四个阶段快速地实现了蜂群模式的并行挖掘;最后,在Hadoop平台上,使用真实交通轨迹大数据集对分布式算法的有效性和高效性进行了验证与分析。  相似文献   

9.
随着基于位置的社交网络的发展,时空-文本等轨迹数据量呈指数式增长,与此同时数据低质的问题日益显著。高质的签到数据可以使研究人员更好地从中挖掘丰富且有意义的知识,因此为了更有效地使用签到大数据,数据预处理必不可少。签到数据具有冗余度高、同时签到、时空签到跨度大等低质问题,导致不能直接使用现有的数据预处理流程和方法。针对签到数据特性,提出一套具有针对性的数据预处理流程。通过平均化处理消除了签到轨迹中存在的同时签到数据;通过学习基于熵的时间戳间隔阈值划分签到轨迹,解决签到轨迹时间跨度大的问题;利用基于密度聚类的方法实现签到轨迹分层,解决空间跨度大的问题。实验采用真实的签到轨迹数据,从离群点和分层效果两个方法对预处理效果进行评价,实现不同空间粒度的签到轨迹分离预处理,为后续的轨迹分析与挖掘奠定基础。  相似文献   

10.
轨迹数据可视分析研究   总被引:3,自引:0,他引:3  
轨迹数据大量产生于交通、气象、生态和移动服务等领域.有效地理解和利用这些数据不仅需要自动高效的分析方法,也需要直观生动的可视化;这两者相互结合形成了可视分析技术.文中概述了轨迹数据可视分析中的主要方法和交互技术,并介绍了一系列应用案例.最后,文中总结了轨迹数据可视分析研究中的问题和面临的挑战.  相似文献   

11.
交通数据是智能交通平台的基础,数据质量将很大程度决定智能交通系统对交通特性的分析和挖掘.然而交通数据现有的采集方式使得其质量难以保证,因此,对交通数据进行预处理具有重要的现实意义.根据交通领域著名的流量/时间占有率的倒"V"字型曲线模型,提出了一种基于曲线拟合的异常检测方法,能够有效识别交通流量数据中的异常数据,并对其进行修正,使交通流数据能够满足智能交通系统的分析挖掘要求.  相似文献   

12.
Web日志挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。而数据预处理在Web日志挖掘中起着很重要的作用,直接影响日志挖掘的质量和结果。介绍了Web日志挖掘数据预处理过程,综述了国际上的研究现状,及流行的处理方法。针对预处理步骤中的用户会话识别和路径填充进行了相应的改进。根据评估会话构造方法的标准,通过实验对给出的新方法与其他方法进行了分析比较。  相似文献   

13.
基于Web的日志挖掘数据预处理方法的研究   总被引:22,自引:0,他引:22  
随着www的广泛应用及相应的Web技术的出现,使数据挖掘的研究进入了一个新的阶段。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。论文针对基于日志的数据挖掘提出了前期的几种数据预处理方法,目的是分割服务器日志为多个独一无二的用户的一次访问序列,并给予了很好的算法实现。  相似文献   

14.
Web日志挖掘中数据预处理方法的研究   总被引:2,自引:0,他引:2  
Web日志挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。而数据预处理在Web日志挖掘中起着很重要的作用,直接影响日志挖掘的质量和结果。介绍了Web日志挖掘数据预处理过程,综述了国际上的研究现状,及流行的处理方法。针对预处理步骤中的用户会话识别和路径填充进行了相应的改进。根据评估会话构造方法的标准,通过实验对给出的新方法与其他方法进行了分析比较。  相似文献   

15.
近年来,随着计算机技术与无线传感器网络的发展,轨迹大数据越来越得到人们的关注.针对海量轨迹数据在存储与查询中出现的效率问题,文章基于文档型非关系型数据库MongoDB提出了一套基于四叉树的道路网时空索引,实现海量轨迹数据的高效查询.通过对太原市1915辆出租车的50万条轨迹数据进行时空查询,在不同数据量与不同并发数下测试道路网时空索引与MongoDB复合时空索引的效率表现.实验结果显示道路网时空索引在数据量大于10万时有较好表现,并能够适应不同并发数下的时空查询,验证了道路网时空索引构建方法的可行性和高效性.  相似文献   

16.
Apriori算法是数据挖掘中一个里程碑式的经典算法,在该算法的思想上衍生出了许多通过产生频繁项集来导出关联规则的算法。提出了一种基于数据项闭包的、为保密数据挖掘进行数据预处理的全新方法。该方法针对类Apriori算法的特点和过程对不同特点的数据项进行不同的变换,使得挖掘请求方既能够正确地得到自己想要得到的关于己方产品的信息,又无法正确地得到关于潜在的竞争对手的信息。因此数据提供方在采用该方法预处理数据后,能够提供有利于双方的数据,以达到双赢的目的。  相似文献   

17.
科技评价活动中往往存在不可靠的评审数据,直接用这些数据反评估专家的水平可能会导致误差甚至得出错误的结果。为解决该问题,根据不可靠数据只会分布于评审数据两端的特点,使用格鲁布斯测试法检测评审数据中的异常点,采用欧氏距离作为评估指标,再结合累计数、命中率、成功率等指标,确定专家的评审水平。实验结果证明,该方法得到的评估值更可靠。  相似文献   

18.
Web日志是目前Web数据挖掘的重要研究方向。数据预处理是Web日志挖掘中的关键技术。详细的介绍了Web日志挖掘的预处理过程。数据预处理包括数据清理、识别用户、识别会话和框架页面清理、路径补充。用户识别后,框架页面降低了数据挖掘的效率,可以通过过滤框架页面大幅度减少产生的无效页面数。  相似文献   

19.
移动社交网络等基于定位服务应用的快速发展导致时空数据流规模呈爆炸式增长,要求底层数据存储系统支持高吞吐量轨迹数据的插入以及空间和时间约束下的低延迟查询,而现有HBase等数据存储方案因索引更新开销过高无法满足该需求。针对时空数据流的应用特性,提出一种数据流内存索引及存储方法。根据键值和时间范围对历史与增量数据元组进行物理分区,将其以模板B+树的形式写入内存并构建索引以增强快速写入和查询能力,同时对数据进行压缩存储提升索引效率。在此基础上,采用多级索引根据数据分区将复杂查询分解为可独立处理的子查询。实验结果表明,与传统HBase、WaterWheel等方法相比,该方法在不同数据插入和查询条件下的数据存储性能与查询效率更优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号