排序方式: 共有22条查询结果,搜索用时 15 毫秒
1.
聚类是假设数据在具有某种群聚结构的前提下根据观察到的无标记的样本发现数据的最优划分。针对已有的聚类算法存在的缺点,假设数据样本的结果簇是密集的,且簇与簇之间区别明显,基于该假设提出一种基于傅里叶变换和连通图的聚类分析方法 FGClus。首先针对每个样本点计算k阶距离矩阵并序列化作为离散傅里叶变换的输入信号;然后抽取频域内幅值最小的复数项并构造输入序列进行傅里叶逆变换,得到在时域空间中的最佳阈值;最后利用该阈值结合连通图指导最终的聚类过程。实验表明,FGClus算法克服了K-means算法聚类前需确定聚类个数、聚类结果对初始代表点的选取敏感、只能聚类球状数据等缺点,取得了良好的聚类效果。 相似文献
2.
聚类结果的有效性由结构有效性、算法有效性和先验知识有效性3个方面的因素决定.忽略先验知识和假设结构的有效性孤立地提升聚类算法的有效性很可能产生无效的聚类结果.现有聚类方法通常只是简单地导出假设结构下最优的聚类结果,并交付用户,缺乏对聚类结果的自省能力.实际上,聚类方法是一个不断迭代优化的过程,包括对训练数据拟合度和假设结构的迭代优化.基于上述的考虑,提出以聚类结构的鲁棒性作为聚类结果有效性的衡量指标,并将鲁棒性评估有机地整合到聚类算法的迭代优化过程中,提出一种面向结构鲁棒性的迭代聚类方法框架.此外,依托该框架下设计并实现了SROC聚类算法,通过对模拟数据和真实文档数据的聚类实验,例证了方法有效性. 相似文献
3.
基于时空邻域的多粒度轨迹相似性查询 总被引:1,自引:0,他引:1
移动对象轨迹存储、管理和查询的研究已经具有相当基础,然而面向应用的移动对象运动模式分析乃至决策支持则更为人们所期待,提出基于时空邻域的多粒度轨迹相似性查询以支持其运动模式分析.直观地,如果两个移动对象在运动中频繁地出现在对方的时空范围附近,则认为二者轨迹相似,且出现得越频繁相似程度越高,即基于时空邻域的轨迹相似性测度.此外,实际中通常会在不同大小的时空邻域下评估轨迹相似性,以获得微观和宏观层面上的相似轨迹,即多粒度轨迹相似性查询.最后的实验分析也证明了基于时空邻域的多粒度轨迹相似性查询方法的有效性. 相似文献
4.
5.
一种基于元启发式策略的迭代自学习K-Means算法 总被引:1,自引:0,他引:1
类内误差平方和最小化的聚类准则求解是NP难问题,K-Means采用的迭代重定位方法本质上是一种局部搜索的爬山算法,因此聚类结果对初始代表点的选择非常敏感,只能保证局部最优.为此,引入元启发式策略,通过建立评估函数对K-Means初始代表点和目标函数之间的依赖关系进行近似,然后利用近似评估函数指导新的初始代表点的选择,构成一种迭代自学习框架下的K-Means算法.实验表明算法可以很好地克服K-Means对初始代表点的依赖性,获得较高质量的聚类结果. 相似文献
6.
R^*树是目前公认查询效果很好的R树变体,但是其构造代价较原始R树增加数倍,对于插入删除和更新频繁的空间数据效果不好。为此,本文提出一种基于惰性聚类分裂技术的R树动态实现方法(LR树)。惰性聚类分裂技术是在对象插入节点导致溢出时不立即进行分裂,而是尝试将其插入到邻近的未满节点中,直到邻近节点均已满时,再利用聚类技术进行节点分裂,在邻近节点和分裂节点之间重组入口项。LR树在确保查询性能的前提下,大大降低了构造代价,并且大幅提高了索引结构的空间利用率。最后的分析和实验证明了LR树的高效性。 相似文献
7.
8.
聚类是在假设数据具有某种群聚结构的前提下根据观察到的无标记样本发现数据的最优划分。现有的聚类算法通常简单地导出假设结构和给定先验下最优或较优的聚类结果,体现为算法对样本分布拟合度的迭代最优化,即算法有效性。实际上,聚类的有效性取决于结构有效性、算法有效性和先验有效性3个方面的因素。基于这种考虑,提出了一种变体混合模型的聚类结构假设,以及判定聚类结构的稳定性的度量和方法,在算法有效的前提下通过单簇的分裂与合并来改进聚类结构的稳定性,并得到最终聚类结果,设计并实现了SMClus聚类算法,通过对模拟数据和真实数据的聚类实验,例证了方法的有效性。 相似文献
9.
引入序关系保持的思想,即层次聚类的簇间距离度量应该能够最大限度地维护样本点间的原始距离排序关系。定义了样本点对序关系的概念和序关系损失度量,证明了序关系损失度量可用做聚类的目标准则函数和聚类结果质量的评价标准。利用序关系损失的概念扩展出两种簇间距离度量,实现了基于序关系保持的层次聚类算法(order-preserving based hierarchical clustering algorithm,OPHCLUS)。实验仿真证明了OPHCLUS对聚类质量提升的有效性。 相似文献
10.