首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 609 毫秒
1.
针对DBSCAN算法聚类时时间复杂度较高、当边界点同时属于多个类时其聚类准确率较低的问题,在网格查询思想和OPTICS算法的基础上,提出一种改进的DBSCAN算法(GO-DBSCAN算法)。进行聚类操作前,为降低聚类的时间复杂度,先基于网格查询的思想将数据集划分成不同的网格,在进行项目邻域查询时,只须遍历项目附近网格数据而不必遍历整个数据集; 在进行项目聚类时,主要考虑该项目与其附近核心项目的最小可达距离,因此,将OPTICS算法中的最小可达距离引入到DBSCAN算法中,以提高算法对边界点处理的准确度。仿真实验结果表明,GO-DBSCAN在边界点处理的准确率和运行效率方面较DBSCAN都有所提高。  相似文献   

2.
为解决现有基于网格结构的差分隐私二维空间数据划分发布方法可能引起局部划分过细导致查询精度低的问题,提出了基于kd-树的差分隐私二维空间数据划分发布方法-kd-PPDP算法(differentially privacy partitioning publication algorithm based on kd-tree)。算法采用了kd-树算法思想,通过启发式地识别网格化后数据分布情况并合并相邻近似网格单元来防止局部划分过细问题,从而减少所添加的噪声,提高查询精度。通过实验对比分析了kd-PPDP算法与现有基于网格结构的划分发布方法的查询误差以及时间效率,结果表明了该算法的有效性和可行性。  相似文献   

3.
近年来,在HDFS上的小文件聚类存储问题引起了广泛关注.针对传统聚类算法DB-SCAN在聚类过程中,出现数据密度不均匀时造成聚类效果粗糙及时间开销较大等问题,提出了一种基于经改进网格单元的DBSCAN聚类算法.该算法首先使用网格单元划分及爬山法辨别出局部次优区域来缩小搜索范围,进而再从所选局部次优区域执行宽度优先搜索法...  相似文献   

4.
目的设计基于网格索引的Top-k偏好查询算法,提高Top-k偏好查询问题的解决效率.方法利用网格索引,采用概念划分的方法,实现基于范围查询和NN查询两种方式的Top-k偏好查询算法.结果通过真实数据集测试结果表明算法能够结合网格索引的优点,与基于R树索引的传统算法相比,在k值不断增加的情况下,查询效率提高了50%,能适应多种空间特征数据对象集合.结论网格索引可以有效处理Top-k偏好查询.  相似文献   

5.
一种混合聚类算法及其应用   总被引:1,自引:0,他引:1  
通过分析基于网格与基于密度的聚类算法特征,提出了一种基于网格和密度的混合聚类算法,通过分阶段聚类并选取代表单元中的种子对象来扩展类, 从而减少区域查询次数,实现快速聚类。该算法保持了基于密度的聚类算法可以发现任意形状的聚类和对噪声数据不敏感的优点,同时保持了基于网格的聚类算法的高效性,适合对大规模数据的挖掘。实验数据分析验证了算法的有效性,对数据挖掘应用于设备状态监测和故障诊断具有指导意义。  相似文献   

6.
提出了一种基于相对熵和子空间二次过滤的CLIQUE改进算法。该算法根据数据的分布情况对每一维采用自适应的网格划分方法,减少了全空间中网格单元的数量,降低了算法的时间复杂度。算法采用了基于维关联度的子空间二次过滤策略,提高了聚类结果的准确性。实验使用仿真数据表明,该算法在精度,时间复杂性等方面的表现优越。  相似文献   

7.
针对海量实时数据流,提出了一种基于密度和网格划分相结合的聚类算法.首先对数据空间进行划分,判断每个单元格中数据点的属性.如果单元格内数据点密度高于阈值,则判定这些点为核心点;否则,根据单元格邻居内数据点的数量对数据点进行再次判断,以确定单元格内的数据点是边界点还是噪声点.算法克服了基于密度的算法运行效率低的缺点,又弥补了基于网格的算法精度较低的不足.通过实验验证了算法的效率和性能,并与经典的DBSCAN和CLIQUE算法进行了对比分析.最后分析了算法在面向海量实时数据流方面所具有的优势,并提出了进一步的研究方向.  相似文献   

8.
针对连续查询场景中用户实时位置的隐私保护问题,设计了一种基于客户端的假轨迹生成方法.该方法使用网格划分地理空间,统计网格划分后每个网格内的历史查询数据.通过分析网格内的历史查询数据构建实时预测用户移动轨迹的重力模型.在重力模型基础上结合历史查询概率定义了轨迹熵度量轨迹隐私保护等级,并在最大运行速度限制下,提出了一种具有最大轨迹熵的基于k-匿名的假轨迹隐私保护算法.实验结果验证了所设计的假轨迹生成方法能够有效地保护真实轨迹的隐私.  相似文献   

9.
针对基于密度带有“噪声”的空间聚类应用(DBSCAN)聚类算法存在的3个主要问题: 输入参数敏感、对内存要求高、数据分布不均匀时影响聚类效果,提出了一种基于遗传方法的DBSCAN算法改进方案数据分区中使用遗传思想的DBSCAN算法(DPDGA)来提高聚类质量.利用遗传算法改进K-means算法来获取初始聚类中心;对数据进行划分,在此基础上对划分的每一部分使用DBSCAN算法进行聚类;合并聚类的结果.仿真实验表明,新方法较好解决了传统DBSCAN聚类算法存在的问题,在聚类效率和聚类效果方面均优于传统DBSCAN聚类算法.  相似文献   

10.
DBSCAN聚类算法的研究与改进   总被引:5,自引:1,他引:4  
针对“基于密度的带有噪声的空间聚类”(DBSCAN)算法存在的不足,提出“分而治之”和高效的并行方法对DBSCAN算法进行改进.通过对数据进行划分,利用“分而治之”思想减少全局变量Eps值的影响;利用并行处理方法和降维技术提高聚类效率,降低DBSCAN算法对内存的较高要求;采用增量式处理方式解决数据对象的增加和删除对聚类的影响.结果表明:新方法有效地解决了DBSCAN算法存在的问题,其聚类效率和聚类效果明显优于传统DBSCAN聚类算法.  相似文献   

11.
为了实现路径规划并行优化,解决基于位置的服务(LBS)在高峰时段遭遇大量路径规划的并发查询所导致的较高响应时间的问题,提出双层网格(DLG-index)索引,并基于此提出路径规划的并行算法(PORP). 双层索引的顶层由完整路网的边界节点组成,底层由网格组成,网格由完整路网分割而来. 对于一个给定的查询,基于骨架图计算一条全局路径,然后将规划任务划分成多个局部优化任务. 每个局部优化任务对应此查询的全局路径通过的网格,同时,每个局部优化任务由不同的处理器独立维护. 算法能够基于复杂变化的路况,及时调整导航路线,整个调整过程分段实施,可以由多处理器依次协同完成,实现对海量并发查询做出快速响应. 与CANDS算法相比,PORP的响应时间平均减少了49.6%,处理时间平均减少了28.5%.  相似文献   

12.
目的改进YPK—KNN算法以提高其查询效率,方法利用网格对移动对象进行索引.确定一个尽可能小的搜索区域,使得此区域一定包含距离查询点最近的K个移动对象,然后在此区域内完成查询.最的KNN查询,结果针对真实数据集的实验结果表明在同等条件下,改进算法的查询执行时间明显小于原算法.而且随着移动对象个数的增加和网格划分粒度的减小这种优势随之增加.结论改进的移动对象YPK—KNN查询算法有效提高了原算法的查询效率.  相似文献   

13.
体图形学中CD(Chessboard Distance)漫游体光线追踪算法的加速算法是基于直线网格在算法预处理阶段标识出对最后显像无用的体单元,实现过程中直接跳过而减少被访问的体单元的个数实现加速。通过直线网格的距离来确定下一级的可视体单元的坐标。与单纯的体光线追踪算法相比,缩小了耗费的时间。  相似文献   

14.
提出一种人群活动热点区域的识别方法。利用实际电信用户位置数据,使用网格作为地理空间数据的索引结构,对用户移动轨迹数据进行网格划分,进而利用网格密度和种子网格聚类算法给出热点区域的判定方法,并利用Top-k查询方法选出密度阈值限定热点区域的覆盖范围。仿真表明,该算法能识别出人群活动热点区域,与具有噪声的基于密度的聚类方法算法相比,能够减少热点区域识别时间,增强处理的实时性。  相似文献   

15.
随着信息技术的快速发展,能够获取人们大量的轨迹数据。通过轨迹数据挖掘出城市热点区域,对城市规划、交通管理和一些基于位置的服务都具有重要意义。针对已有的数据挖掘方法,如k均值聚类算法、基于密度的聚类(Density Based Spatia Clustering of Applications with Noise,DBSCAN)算法、谱聚类(Spectral Clustering,SC)算法、密度峰值聚类(Density Peak Clustering,DPC)算法等,存在非凸数据集上聚类效果较差,对初始中心敏感,参数选择困难,时间复杂度较高等问题,提出基于网格划分和DPC改进谱聚类算法用于城市热点区域分析。在合成数据集上的实验结果表明,其聚类精度和时间与经典聚类算法相比具有一定的提升。在西安市出租车数据集上的实验结果表明,提出的算法能有效挖掘出城市热点区域。  相似文献   

16.
针对利用传统匿名框查询兴趣点返回无用结果过多带来的通信量增大问题,提出结合兴趣点分布的匿名框构造方法.首先,LBS服务器构造以所有兴趣点位置为生成元的Voronoi图,该图将全局地图划分成能够表示用户与兴趣点距离远近的划分单元;然后,利用四叉树将整个Voronoi图组织成层次式树型结构,树型结构的叶子节点代表最小的网格单元,每个网格包含覆盖若干个兴趣点;最后,根据用户提供的假位置信息,返回包含用户位置的子树网格单元信息,用户根据网格单元内的兴趣点Voronoi图划分单元可以获取周围兴趣点分布情况,从而构造包含目标兴趣点在内的查询匿名框,达到保护用户位置隐私、查询内容隐私的目标,同时,有目的的兴趣点查询避免了过多无用兴趣点查询信息带来的通信量增大问题.性能分析及实验表明,提出的方法能够增大攻击者对用户隐私信息的不确定性,并具有较低的通信量.  相似文献   

17.
提出了一种有效选择初始聚类中心的算法CNICC.该算法参考了网格聚类算法的思路.划分数据空间为相应维度上的网格单元,然后根据实例的分布情况确定初始聚类中心.从二阶差分的概念出发,CNICC定义了网格单元的一阶邻居和二阶邻居,算法根据每个网格单元的一阶和二阶邻居的局部密度变化寻找包含聚类中心的网格单元.在人工数据集上进行的实验表明,与现有初始化聚类中心的方法相比,CNICC能够有效减少K-means算法的迭代次数,提升聚类精度.同时,随着数据集实例数、维度和网格单元数量的增加,算法的时间复杂度呈线性增加.  相似文献   

18.
针对现有阵列单元故障诊断方法随阵元数目增多而存在的采样数量大、诊断时间长、计算复杂度高等缺陷,提出了一种采用压缩感知理论的故障诊断方法.该方法基于故障单元数目固有的稀疏性,利用完好阵列和实际阵列激励的差值构造稀疏信号.根据目标方位信息设计测量矩阵的网格划分准则,并通过测量矩阵以随机欠采样方式获取少量测量数据.结合平行坐标下降算法对该稀疏信号进行精确重构,从而实现故障单元的准确诊断.理论分析和仿真实验表明,文中提出的方法不仅明显减少了采样数量,有效缩短了诊断时间,大幅降低了计算复杂度,而且进一步提高了故障信息的重构精度.  相似文献   

19.
为了综合考虑连续路段通行能力波动对旅行时间的影响,避免由单一路段通行能力的常规性波动所导致的交通异常误判,提出了一种基于路径旅行时间分析的交通异常检测算法。该算法将深圳市路网网格化为若干个地理子区,以地理子区为单位,使用ST-matching地图匹配算法将深圳市出租车GPS坐标记录点匹配到相应路段,采用基于密度的DBSCAN聚类算法计算路径旅行时间的时变异常阈值,来判定旅行时间的异常。该方法成本低廉,实施难度小,能精确灵敏地检测交通网络异常。  相似文献   

20.
研究在移动云计算环境下的最大双色反最近邻查询优化问题,设计新的高效的双色反最近邻查询算法——SILM算法.SILM算法是基于MapReduce框架下的倒排网格索引结构,在Map函数中对分片数据区域使用PCT轮圈算法.对包含在圆区域内或与圆相交的网格的权值记为1,在Reduce函数中使用网格处理算法对分片数据区域进行扫描及合并,对重叠的网格的权值进行累加,输出网格空间中权值最大的网格区域.SILM算法可以在多计算节点上进行分布式计算,更适合于在移动云计算环境下处理大规模并行查询请求.通过实验对SILM算法的效率进行验证.实验结果表明,当数据量较大(数据点个数大于2.0×10~6)时,SILM算法的查询效率是目前解决最优选址问题最佳算法的2倍.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号