共查询到19条相似文献,搜索用时 156 毫秒
1.
三维散乱数据的k个最近邻域快速搜索算法 总被引:31,自引:0,他引:31
提出一种新的快速搜索算法.首先,采用空间分块策略,把数据空间分成许多大小相同的立方体子空间,立方体的大小决定了最近点的搜索速度;然后,综合考虑了数据集的范围、点的总数及最近点数目k,给出了一种新的估算立方体边长的方法.大量真实数据的实验结果表明:文中算法可以快速地给出接近于最佳搜索速度的立方体边长. 相似文献
2.
空间分块策略是K近邻搜索算法研究中的有效方法,然而现有算法进行空间划分时给出的子立方体大小主要取决于K值的大小,K值变化时需重新进行空间划分,影响了时间效率和稳定性。利用空间分块策略的优点,提出一种以建立离散数据空间索引为空间划分目标的K近邻搜索新算法。该算法预先对空间包围盒进行微分块,形成的子立方体结构仅与离散数据和预设参数相关,同一点云数据只需进行一次空间分配。搜索过程中,以计算点为球心建立空间动态球,判定符合条件的子立方体,进行K近邻搜索。测试结果表明,新算法较现有算法点云分配和遍历时间效率、随机点搜索时间稳定性及对不同K值的适应性等方面更具有优势。 相似文献
3.
针对大规模散乱点数据k最近邻域搜索速度慢和稳定性差的问题,提出一种新的k邻域快速搜索算法.首先,引入空间分块策略将数据集中的点归入不同的子空间;其次,动态控制搜索步长的改变量,根据点到其自身小立方体边界的最小距离保证搜索结果的准确性;最后,通过改变预筛选点数量的右侧控制阈值来消除已有算法中由于初始数值不当引起的死循环.实验结果表明该算法对初始搜索步长、搜索步长增量、采样密度和不同的拓扑结构具有较强的稳定性,并且能更快地完成k邻域搜索. 相似文献
4.
为了获得结构更加合理的仿射矩阵,提出了一种基于[k]-近邻与局部相似度的稀疏子空间聚类算法。该算法首先计算每个点的[k]-近邻,并对其用[k]-近邻数据点进行线性表示,使仿射矩阵在整体稀疏的情况下保证局部的强线性关系。基于图论知识,利用数据的实际分布情况对仿射矩阵进行约束,使仿射矩阵进一步合理地等价于待进行谱聚类的相似矩阵。在人造数据集、随机生成的子空间数据集、图像数据集以及真实数据集上进行了实验,结果表明该算法是有效的。 相似文献
5.
6.
海量散乱点的曲面重建算法研究 总被引:86,自引:0,他引:86
基于海量散乱点的曲面重建在机械产品测量造型、计算机视觉、根据切片数据的医学图像重建等领域中有重要应用.给出了一种以物体表面上不附加任何几何和拓扑信息(包括测点法矢、曲面边界信息)的散乱点集为处理对象,自动生成物体表面的三角网格模型的算法.该算法首先根据测点的邻近测点估算曲面在该测点处的法矢,并采用优化的顺序对法矢方向进行调整以使各测点处的法矢都指向曲面外侧,最后用步进立方体算法输出三角网格模型.采用新的方法计算切平面,不但进一步提高了效率,而且改善了曲面边界及尖锐棱边区域的重建效果.还提出并解决了法矢方向传播中可能出现的局部“孤岛”问题.同时,提出了一种对海量数据进行空间划分的算法,从而大大提高了海量数据的处理效率.应用实例表明,算法效果良好 相似文献
7.
8.
9.
采用一种数据组织方式,提出一种特征向量聚类方法。首先选取特征空间中一些容易聚类的高密度数据点作为初始种子集合,并对其进行聚类。然后从剩下的数据点中选取种子集合的所有k近邻数据点,通过半监督判别式分析方法将当前种子集合及其k近邻数据投影到一个新的投影空间中,在该空间中对这些数据点再进行聚类,得到新的聚类结果,并将这些k近邻数据添加到当前种子集合中。通过迭代上述步骤,当种子集合的k近邻数据为空集时,算法结束。实验表明,该聚类方法优于经典的K-means、均值漂移、谱聚类等算法。 相似文献
10.
11.
简化的粒子群优化快速KNN分类算法 总被引:4,自引:0,他引:4
提出了一种有效的k近邻分类文本分类算法,即SPSOKNN算法,该算法利用粒子群优化方法的随机搜索能力在训练集中随机搜索.在搜索k近邻的过程中,粒子群跳跃式移动,掠过大量不可能成为k近邻的文档向量,并且去除了粒子群进化过程中粒子速度的影响,从而可以更快速地找到测试样本的k个近邻.通过验证算法的有效性表明,在查找k近邻相同时,SPOSKNN算法的分类精度高于基本KNN算法。 相似文献
12.
13.
14.
15.
路网中互近邻查询处理方法 总被引:1,自引:0,他引:1
提出路网中的互近邻查询问题.给定路网G(V,E),对象集P,查询点q,近邻数k1和k2,互近邻查询返回既是q的k1近邻,又是q的反k2近邻的对象集.为解决该问题,首先提出基础算法,即先求出查询点q的k1近邻作为候选,再验证这些候选是否为真正的结果.然后,在此基础上提出了优化算法,根据落在对象点与查询点最短路径边上的标记点个数直接排除掉一些错误的候选对象.最后,通过实验验证了优化算法的有效性. 相似文献
16.
针对化工过程数据中存在缺失数据的问题,在保持局部数据结构特征的基础上提出了基于局部加权重构的化工过程数据恢复算法。通过定位缺失的数据点并以符号NaN(Not a Number)标记,将缺失的数据集分为完备数据集和不完备数据集。不完备的数据集按照完整性的大小依次找到它们在完备数据集中相应的k个近邻,根据误差平方和最小的原则,求出k个近邻相应的权值,用k个近邻及相应的权值重构出缺失的数据点。将该算法应用在不同缺失率下的两种化工过程数据中并与望最大化主成分分析(EM-PCA)法和平均值(MA)两种传统的数据恢复算法相比较,该算法的恢复数据误差最小,并且计算速度相比EM-PCA算法平均提高了2倍。实验结果表明,局部加权重构的化工过程数据恢复算法可以有效地对数据进行恢复,提高了数据的利用率,适用于非线性化工过程缺失数据的恢复。 相似文献
17.
Samet H 《IEEE transactions on pattern analysis and machine intelligence》2008,30(2):243-252
Similarity searching often reduces to finding the k nearest neighbors to a query object. Finding the k nearest neighbors is achieved by applying either a depth- first or a best-first algorithm to the search hierarchy containing the data. These algorithms are generally applicable to any index based on hierarchical clustering. The idea is that the data is partitioned into clusters which are aggregated to form other clusters, with the total aggregation being represented as a tree. These algorithms have traditionally used a lower bound corresponding to the minimum distance at which a nearest neighbor can be found (termed MinDist) to prune the search process by avoiding the processing of some of the clusters as well as individual objects when they can be shown to be farther from the query object q than all of the current k nearest neighbors of q. An alternative pruning technique that uses an upper bound corresponding to the maximum possible distance at which a nearest neighbor is guaranteed to be found (termed MaxNearestDist) is described. The MaxNearestDist upper bound is adapted to enable its use for finding the k nearest neighbors instead of just the nearest neighbor (i.e., k=1) as in its previous uses. Both the depth-first and best-first k-nearest neighbor algorithms are modified to use MaxNearestDist, which is shown to enhance both algorithms by overcoming their shortcomings. In particular, for the depth-first algorithm, the number of clusters in the search hierarchy that must be examined is not increased thereby potentially lowering its execution time, while for the best-first algorithm, the number of clusters in the search hierarchy that must be retained in the priority queue used to control the ordering of processing of the clusters is also not increased, thereby potentially lowering its storage requirements. 相似文献
18.
为了更好地解决密度不均衡问题与刻画高维数据相似性度量问题,提出一种基于共享[k]-近邻与共享逆近邻的密度峰聚类算法。该算法计算两个点的共享[k]-近邻数与共享逆近邻数,并结合欧氏距离来确定这两个点之间的共享相似度;将样本点与其逆近邻点的共享相似度之和定义为该点的共享密度,再通过共享密度选取聚类中心。通过实验证明,该算法在人工数据集和真实数据集上的聚类结果较其他密度聚类算法更加准确,并且能更好地处理密度不均衡问题,同时也提高了高维数据的聚类精度。 相似文献
19.
Range nearest-neighbor query 总被引:6,自引:0,他引:6
A range nearest-neighbor (RNN) query retrieves the nearest neighbor (NN) for every point in a range. It is a natural generalization of point and continuous nearest-neighbor queries and has many applications. In this paper, we consider the ranges as (hyper)rectangles and propose efficient in-memory processing and secondary memory pruning techniques for RNN queries in both 2D and high-dimensional spaces. These techniques are generalized for kRNN queries, which return the k nearest neighbors for every point in the range. In addition, we devise an auxiliary solution-based index EXO-tree to speed up any type of NN query. EXO-tree is orthogonal to any existing NN processing algorithm and, thus, can be transparently integrated. An extensive empirical study was conducted to evaluate the CPU and I/O performance of these techniques, and the study showed that they are efficient and robust under various data sets, query ranges, numbers of nearest neighbors, dimensions, and cache sizes. 相似文献