共查询到10条相似文献,搜索用时 31 毫秒
1.
为了解决主存中高维数据相似连接问题,基于高效索引Δ-tree提出了连接两个不同数据集的主存相似连接算法Δ-tree-join*。该算法采用自顶向下的模式,充分利用Δ-tree的特性,使用较少的维数计算聚类之间的距离及数据点与聚类之间的距离,通过该距离过滤掉不必要的节点和数据点,减少计算量,提高连接效率。实验结果表明,Δ-tree-join*是一种更适合主存的相似连接算法,比目前这方面最先进的算法EGO及EGO*具有更优的性能。 相似文献
2.
针对大数据环境下传统并行密度聚类算法中存在的数据划分不合理,聚类结果准确度不高,结果受参数影响较大以及并行效率低等问题,提出一种MapReduce下使用均值距离与关联性标记的并行OPTICS算法——POMDRM-MR。算法使用一种基于维度稀疏度的减少边界点划分策略(DS-PRBP),划分数据集;针对各个分区,提出标记点排序识别簇算法(MOPTICS),构建数据点与核心点之间的关联性,并标记数据点迭代次数,在距离度量中,使用领域均值距离策略(FMD),计算数据点的领域均值距离,代替可达距离排序,输出关联性标记序列;最后结合重排序序列提取簇算法(REC),对输出序列进行二次排序并提取簇,提高算法局部聚类的准确性和稳定性;在合并全局簇时,算法提出边界密度筛选策略(BD-FLC),计算筛选密度相近局部簇;又基于n叉树的并集型合并与MapReduce模型,提出并行局部簇合并算法(MCNT-MR),加快局部簇收敛,并行合并局部簇,提升全局簇合并效率。对照实验表明,POMDRM-MR算法聚类效果更佳,且在大规模数据集下算法的并行化性能更好。 相似文献
3.
批量构建M+-tree 总被引:1,自引:0,他引:1
提出了一种新的M^+-tree构造策略一通过批量装载数据静态构造M^+-tree.这种建树方法能够极大地降低索引的构建代价并加快建树速度:又能保证高雏数据良好的聚类特性.同时又提出了一种有效的聚类算法一多步聚类,基于这种聚类构造M^+-tree.实验结果表明,这种建树算法能够保证索引空间的最大利用率.降低建树的代价,同时又能够保证索引的查询效率. 相似文献
4.
基于城市居民出行的随机性和出租车行驶的机动性,对出租车轨迹数据进行载客热点区域的挖掘,得到城市居民出行规律。由于出租车轨迹数据密度分布不均匀,应用一般的聚类方法效果不佳,因此提出一种基于密度分区的聚类算法。该算法通过求取每个出租车上车点位置数据的局部密度,得到密度峰值点作为簇中心,实现对轨迹数据集基于密度的快速划分,得到不同密度的轨迹数据集,在此基础上进行二次聚类。实验结果表明,该算法可以有效识别不同密度的出租车载客热点区域,提高聚类结果的精确度。 相似文献
5.
6.
7.
为了解决主存中高维数据相似连接问题,基于高效索引Δ-tree提出了连接两个不同数据集的主存相似连接算法Δ-tree-join*.该算法采用自顶向下的模式,充分利用Δ-tree的特性,使用较少的维数计算聚类之间的距离及数据点与聚类之间的距离,通过该距离过滤掉不必要的节点和数据点,减少计算量,提高连接效率.实验结果表明,△... 相似文献
8.
为了解决主存中高维数据相似连接问题,基于高效索引合△-tree提出了连接两个不同数据集的主存相似连接
算法△-tree-join*。该算法采用自顶向下的模式,充分利用△-tree的特性,使用较少的维数计算聚类之间的距离及数
据点与聚类之间的距离,通过该距离过滤掉不必要的节点和数据点,减少计算量,提高连接效率。实验结果表明,△-
tree-join‘是一种更适合主存的相似连接算法,比目前这方面最先进的算法EGO及EGO‘具有更优的性能。 相似文献
9.
针对基于网格的聚类算法存在簇边缘网格中包含噪声点、利用网格相对密度差进行网格合并时不能区分密度均匀变化的网格等问题。提出一种利用区域划分的多密度快速聚类算法MFCBR。算法把数据空间划分成密度不同的网格,利用网格索引表和网格中心密度差合并网格形成簇,然后分别计算每个簇的边界网格质心、边界网格和最近簇网格中心位置,利用三者之间的关系来排除簇边界网格数据中包含的噪声点。实验表明,该算法在降低噪声数据对聚类干扰的同时,且对密度均匀变化的多密度数据集也有较优的处理效果。 相似文献
10.
各种集成位置服务(LBS)的社交和旅游类APP的广泛应用,产生了大量轨迹空间数据,利用这些轨迹数据挖掘游客聚集密度高的热门景点区域,对景区的智慧服务和应急管理具有重要意义。为此,提出了一种基于轨迹停留点空间聚类的景区热点分析方法。重点研究了聚类速度快、能处理噪声、可以发现空间任意形状聚簇的DBSCAN算法,针对其参数需人工选择的不足,提出了一种根据数据统计分布特性来自适应确定参数的改进方法。分别采用人工合成二维数据集、四维Iris真实数据集和景区轨迹停留点三种不同的数据进行了DBSCAN聚类分析及对比实验,结果表明该方法可以自动产生合理的聚簇划分,优于传统DBSCAN和k-means等算法。最后,依据轨迹停留点的空间聚类结果,在ArcGIS软件中实现Getis-Ord Gi*热点分析与制图,并依据分析结果对不同旅游景点进行热度分级,形成的热门景点分布与景区掌握的实际热度信息基本一致,证实了提出方法的有效性。 相似文献