首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
随着移动传感器设备的普及,人们能够采集到的位置数据越来越多,轨迹数据的规模也越来越庞大.从大规模时空数据中查找与指定轨迹最相似的前k条轨迹一直是时空大数据挖掘的重要挑战之一.现有的相似轨迹查询方法大都包括三个阶段:(1)对海量的离线轨迹数据建立索引;(2)基于索引结构从已知轨迹集中查询与指定轨迹相似的候选轨迹;(3)计算指定轨迹与候选轨迹之间的精确相似度并返回相似度最大的前k条轨迹.但大多数现有方法对轨迹进行聚类索引时不能有效利用时间和空间信息,导致时间相似度不高的轨迹也会被划分到相同的索引项上,最终影响查询的准确性和效率.此外,现有的时空轨迹相似度计算方法存在大量的无效运算,使得相似轨迹的查询效率整体较低.针对当前伴随轨迹查询方法对时间与空间信息利用不充分的问题,本文提出一种新的二级时空分桶索引结构,首先将每条轨迹数据按照时间滑动窗口划分为若干带有时间槽信息的子轨迹,在时间上对轨迹进行一级索引聚类;在此基础上对在相同时间槽内的子轨迹进行二级空间索引聚类,利用哈希算法将具有连续相同位置点的子轨迹映射到同一时空分桶中.与已有索引方法相比,该方法对不同轨迹在索引时具有更好的区分度,查询时的...  相似文献   

2.
李红梅  郝文宁  陈刚 《计算机应用》2014,34(12):3481-3486
针对推荐系统中用户评分数据的海量高维与稀疏性,以及直接利用传统相似性度量方法来获取近邻的计算量大、结果不准等对推荐质量的影响,提出基于精确欧氏局部敏感哈希(E2LSH)的协同过滤推荐算法。首先利用精确欧氏局部敏感哈希算法对用户评分数据进行降维处理并构建索引,以快速获取目标用户的近邻用户;然后利用加权策略来预测用户评分,进而完成协同过滤推荐。实验结果表明,该算法能有效解决用户数据的海量高维与稀疏性问题,且运行效率高,具有较好的推荐质量。  相似文献   

3.
针对区块链环境中海量高维的数据使得推荐性能低下的问题,通过对局部敏感哈希算法的优化,降低其在近邻搜索过程中带来的额外计算和存储开销.利用数据分布的主成分减少传统LSH中不良捕获的投影方向,同时对投影向量权重进行量化,以减少哈希表和哈希函数的使用;通过对哈希桶的间隔进行调整,并且根据冲突次数的大小进一步细化查询结果集,以...  相似文献   

4.
胡海苗  姜帆 《软件学报》2015,26(S2):228-238
提出了一种可扩展的局部敏感哈希索引(SLSH),以解决高维动态数据索引中,由于数据集大小及分布特征无法确定而导致索引效率降低的问题.SLSH架构于E2LSH之上,继承了其对高维数据索引速度快,并可直接对欧式空间上的数据点进行索引的特点.为了使得哈希索引具有动态的相似性区分能力,SLSH修改了E2LSH的哈希族,通过哈希桶容量约束自适应调节哈希参数.因此对于分布密度动态变化的数据空间,SLSH也能够给出鲁棒的划分.  相似文献   

5.
活动轨迹的近似查询是在带关键词信息的轨迹集中,检索与查询点集距离最近且满足查询点集关键词要求的活动轨迹的过程。因为GAT(Grid index for Activity Trajectories)不能查询海量活动轨迹,将GAT扩展到适用于海量活动轨迹的近似查询技术GATH(GAT on Hadoop)。和GAT相比,GATH使用两种新的索引结构进行剪枝;其网格索引依照海量数据的特点从底层单元格开始进行基于空间的剪枝;其倒排索引用于进行基于关键词的剪枝。实验结果证实GATH比GAT能有效缩短索引建立时间及提高剪枝效率。  相似文献   

6.
近年来,随着计算机技术与无线传感器网络的发展,轨迹大数据越来越得到人们的关注.针对海量轨迹数据在存储与查询中出现的效率问题,文章基于文档型非关系型数据库MongoDB提出了一套基于四叉树的道路网时空索引,实现海量轨迹数据的高效查询.通过对太原市1915辆出租车的50万条轨迹数据进行时空查询,在不同数据量与不同并发数下测试道路网时空索引与MongoDB复合时空索引的效率表现.实验结果显示道路网时空索引在数据量大于10万时有较好表现,并能够适应不同并发数下的时空查询,验证了道路网时空索引构建方法的可行性和高效性.  相似文献   

7.
相似性搜索(近邻搜索)是从一个大数据集合中找出与查询对象距离最近的数据对象集合,局部敏感哈希(LSH)及其变种是解决这个问题著名且有效的算法,本文对相关研究成果进行了广泛的调查研究。  相似文献   

8.
基于密度峰值的聚类算法(DPC)是最近提出的一种高效密度聚类算法。该算法可以对非球形分布的数据聚类,有待调节参数少、聚类速度快等优点,但在计算每个数据对象的密度值和高密度最邻近距离时,需要进行距离度量,其时间复杂度为 。在大数据时代,尤其是处理海量高维数据时,该算法的效率会受到很大的影响。为了提高该算法的效率和扩展性,利用 Spark 在内存计算以及迭代计算上的优势,提出一种高效的基于E2LSH分区的聚类算法ELSDPC(an efficient distributed density peak clustering algorithm based on E2LSH partition with spark)。算法利用DPC算法的局部特性,引入局部敏感哈希算法LSH实现将邻近点集划分到一个区域。通过实验分析表明:该算法可在满足较高准确率的同时有效提高聚类算法的扩展性和时间效率。  相似文献   

9.
局部敏感哈希LSH(Locality Sensitive Hashing)是一种常见的用于处理高维向量的索引办法。首先介绍LSH算法的基本原理和方法,然后通过更快哈希函数的计算和跳过重复点等方法对LSH算法进行改进,与传统的索引方法相比,改进后算法在不降低准确度的情况下,耗费时间更短。实验结果证明,将该优化算法应用于基于内容数字版权检索中,其性能优于传统的索引方法。  相似文献   

10.
针对现有本地编码机制与本地扰动机制在收集空间数据时不具有保距性的问题,提出了基于局部敏感Hash结构(locality-sensitive hashing, LSH)的近似k-近邻(k nearest neighbor,kNN)查询算法PELSH与PULSH.这2种算法利用具有多Hash函数的多Hash表对所有用户位置数据进行索引,结合多Hash表结构响应近似kNN查询.每个用户结合收集者所共享的多Hash表副本,将自身位置数据以汉明空间嵌入方式编码成0/1串.借助LSH结构对0/1串进行Hash压缩,并利用GRR机制与按位扰动机制对压缩后的0/1串进行本地处理.收集者利用每个用户的报告值重构多Hash表索引结构,遍历多Hash表响应空间近似kNN查询.为了有效地利用LSH索引结构的特点,PELSH和PULSH算法结合隐私预算分割与用户分组策略来重构多Hash表结构,基于这2种策略设计了4种本地扰动算法PELSHB,PELSHG,PULSHB和PULSHG.PELSH和PULSH算法与现有的近似kNN查询算法在真实的大规模空间数据集上的实验结果表明,所设计的近似空间kNN查询效果优于同...  相似文献   

11.
针对近海监控管理的需求,将电子海图、雷达监控、AIS数据与CCTV技术相结合,通过集成平台对数据的融合处理,实现海洋交通的宏观、动态、实时、立体化的综合智能监控。同时提出一种基于地域信息位置特征点提取(Regional Information Feature Points Extraction, RIFPE)的点迹段划分方法。以某雷达基站为实验点,对已有船只的各项数据运用向量自回归和因子分析进行建模得到区域划分后的轨迹段的轨迹阈值,基于k最近邻算法(kNN)得到对轨迹阈值训练后的结果,最终对测试集进行轨迹行为判别。  相似文献   

12.
宫海彦  耿生玲 《计算机科学》2018,45(Z6):130-134
现有移动对象的轨迹预测大部分是针对路网空间,然而在实际地理环境中往往存在障碍物,移动对象的运动基本在障碍空间中进行。近年来,已有较多关于路网空间中移动对象轨迹预测的研究以及障碍空间中障碍范围查询、最近邻查询等的研究,但是目前尚没有障碍空间中移动对象不确定轨迹预测的相关研究。为此,提出障碍空间中基于移动对象运动规律的不确定轨迹预测方法。首先,利用障碍物之间的区域关系对障碍空间进行剪枝;其次,提出障碍空间期望距离概念,对障碍空间的轨迹数据进行轨迹聚类,从而挖掘移动对象的热点区域;然后,根据各热点区域间的障碍距离和历史访问习惯得到转移的综合概率,提出基于移动对象运动规律的轨迹预测算法;最后,通过实验验证了算法的准确性和高效性。  相似文献   

13.
移动对象历史轨迹的连续最近邻查询算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种直接在原始时空坐标系下对一维移动对象的历史轨迹进行连续最近邻查询的算法,给出相关的定义与定理,通过分析轨迹之间的交点及轨迹线段单调性等特征,利用以前所求得的最近邻结果信息进行连续最近邻的查询判断。实验结果与分析表明,该算法具有较好的性能。  相似文献   

14.
提出一种以最近邻划分变异为搜索策略,并以EP(进化规划)与EDA(概率密度估计算法)相结合的混合进化方法作为搜索引擎的新型码书设计算法.在最近邻划分上,引入最近邻划分控制因子作为进化算法的染色体表示,实现最近邻划分变异,从而改变质心运动轨迹.染色体与矢量同维,编码空间相对较小,并且进化操作易于控制和实现.在混合进化方法中,EDA为EP提供了最优个体的搜索方向,加速了算法的收敛速度.实验结果表明该方法是能有效提高码书性能的一种优化方法.  相似文献   

15.
基于LSH的中文文本快速检索   总被引:1,自引:0,他引:1  
蔡衡  李舟军  孙健  李洋 《计算机科学》2009,36(8):201-204
目前,高维数据的快速检索问题已经受到越来越多的关注.当向量空间的维度高于10时,R-tree,Kd-tree,SR-tree的检索效率反而不如线性检索,而位置敏感的哈希(Locality Sensitive Hashing,缩写为LSH)算法成功地解决了高维近邻数据的快速检索问题,因而受到国内外学术界的高度关注.首先介绍了LSH算法的基本原理和方法,然后使用多重探测的方法对二进制向量的LSH算法做了进一步改进.最后实现了这两种LSH算法,并通过详细的实验验证表明:在改进后的算法中,通过增加偏移量可以提高检索的召回率,而在不提高时间复杂度的情况下则可降低空间复杂度.  相似文献   

16.
通过分析已有的索引结构在进行k近邻查询时效率上的不足,提出了适合进行k近邻查询的X*树索引结构,采用了新的结点分裂算法,同时不需要额外存储结点分裂的历史信息。实验结果表明它比X树的时间和空间性能更好,更适合k近邻查询的应用。  相似文献   

17.
移动社交网络等基于定位服务应用的快速发展导致时空数据流规模呈爆炸式增长,要求底层数据存储系统支持高吞吐量轨迹数据的插入以及空间和时间约束下的低延迟查询,而现有HBase等数据存储方案因索引更新开销过高无法满足该需求。针对时空数据流的应用特性,提出一种数据流内存索引及存储方法。根据键值和时间范围对历史与增量数据元组进行物理分区,将其以模板B+树的形式写入内存并构建索引以增强快速写入和查询能力,同时对数据进行压缩存储提升索引效率。在此基础上,采用多级索引根据数据分区将复杂查询分解为可独立处理的子查询。实验结果表明,与传统HBase、WaterWheel等方法相比,该方法在不同数据插入和查询条件下的数据存储性能与查询效率更优。  相似文献   

18.
球面上的最近邻查询方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
球面上的最近邻查询在空间数据库最近邻查询领域具有重要的意义。为了处理球面上的最近邻查询问题,针对球面上数据对象点的特征和近邻查询的需要,给出了处理球面上最近邻查询的3种方法:利用球面voronoi图计算最近邻方法(VNS);利用欧氏空间内的空间数据索引结构方法(SPINS)和降维方法(APNS)。进一步,在动态的密集数据集和动态的稀松数据集两种典型的组合情况下分别着重对3 种方法处理最近邻查询的性能进行了实验比较。理论分析和实验结果表明,给出的3种方法可较好地处理球面上具有不同性质特征的空间数据对象点的近邻查询问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号