首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
High dimensional data clustering, with the inherent sparsity of data and the existence of noise, is a serious challenge for clustering algorithms. A new linear manifold clustering method was proposed to address this problem. The basic idea was to search the line manifold clusters hidden in datasets, and then fuse some of the line manifold clusters to construct higher dimensional manifold clusters. The orthogonal distance and the tangent distance were considered together as the linear manifold distance metrics. Spatial neighbor information was fully utilized to construct the original line manifold and optimize line manifolds during the line manifold cluster searching procedure. The results obtained from experiments over real and synthetic data sets demonstrate the superiority of the proposed method over some competing clustering methods in terms of accuracy and computation time. The proposed method is able to obtain high clustering accuracy for various data sets with different sizes, manifold dimensions and noise ratios, which confirms the anti-noise capability and high clustering accuracy of the proposed method for high dimensional data.  相似文献   

2.
Shapelet发现的目标是寻找质量最佳的Shapelet,Shapelet的质量取决于子序列的可辨别性。针对精准发现有效Shapelet的问题,提出基于子类聚类和SAX表示的Shapelet快速发现算法,将子类聚类与经典的符号表示SAX法相结合进而快速准确的获取最优的Shapelet。该算法利用子类聚类将时间序列进行降维,得到多个子序列原型作为Shapelet候选集;再利用SAX表示将候选集符号化表示,直观的将候选集用字符串表示,便于找到最优Shapelet;最后选取候选集中信息增益最大的作为最优Shapelet进行时间序列分类。实验结果表明,该算法具有较好分类效果,同时提高了分类速度。  相似文献   

3.
基于核K-均值聚类和支持向量机结合的说话人识别方法   总被引:1,自引:0,他引:1  
提出了基于核K-均值聚类方法与支持向量机结合的说话人识别方法,为每两个人建立一个支持向量机,对支持向量机输入的语音信号先进行核K-均值聚类,并选取有效样本作为支持向量机的输入,本文提出的聚类方法能够去更好的聚类并约简数据,提高了识别率.实验比较了在用支持向量机作为分类器的情况下,该核聚类与传统聚类方法的训练速度和识别性能,验证了本文提出方法的有效性.  相似文献   

4.
目的提出一种可以发现不同密度层次分布的聚类算法,解决多层次不同密度数据集的聚类问题.方法采用对数据对象的k-邻居距离进行排序,利用线性回归分析方法发现密度区域变化的边界,对同一个密度区域中的点利用DBSCAN算法进行聚类,获得了多密度级别的类.结果使用真实数据集与人工数据集测试结果表明,此算法可以发现现有算法所不能发现的模式.结论算法在时间效率上与DBSCAN相同,空间效率上随着输入数据的数目增加而线性增长,同时此算法可适用于高维数据集.  相似文献   

5.
为提高人脸数据集生成的准确率和效率,提出了一种将人脸跟踪与人脸聚类相结合的人脸数据集生成方法.首先,对KCF算法进行改进,并将改进的KCF算法用于人脸跟踪,得到不同时间片段的人脸图像集; 其次,从每个人脸图像集中通过人脸图像优选算法选出高质量的人脸图像; 再次,将优选出来的人脸图像进行人脸聚类,以完成视频中每个人的人脸数据集的生成; 最后,通过实验对比基于人脸跟踪、基于人脸聚类和基于本文方法的人脸数据集生成效果.实验结果表明,本文方法与基于人脸跟踪的人脸数据集生成方法相比,纯度提升约15%; 与基于人脸聚类的人脸数据集生成方法相比,效率提升约50%.  相似文献   

6.
提出一种描述数据聚类的元胞自动机(Cellular Automaton,或CA)模型,将待测数据集看作一个Potts磁系统,设定该系统中磁子的状态和演化规则。这样Potts系统的磁化过程就成为待测数据的自动聚类过程。用该方法测试一组二维正态分布的数据集和一组四维Iris标准数据集,得到了较为理想的聚类结果。  相似文献   

7.
为了解决短文本数据流的动态聚类问题,提出动态的狄利克雷多项混合(dynamic Dirichlet multinomial mixture,DDMM)模型。模型能够很好地捕获短文本数据流中主题随时间变化而变化的动态过程,同时考虑到已有历史主题和新主题之间的关系,能够对主题继承性的强弱进行调整,从而增大新主题产生的可能。在Gibbs采样过程中,能够自动估算出聚类个数。模拟数据和真实数据上的试验表明,DDMM模型是有效的。同时将提出的方法和传统动态聚类方法进行对比,结果表明DDMM模型能够进行有效的文本动态聚类,并且聚类效果表现良好。  相似文献   

8.
针对K均值聚类算法对类簇数目预先不可知及无法处理非凸形分布数据集的缺陷, 提出基于进化思想的聚类算法及其类簇融合算法, 该算法将K均值聚类算法嵌入进化聚类算法框架中, 通过调整距离倍参, 将数据逐渐划分, 在此过程中自动确定类簇数目, 提出基于最近距离的中间圆密度簇融合算法和基于代表类的中间圆密度簇融合算法, 将相似度大的类簇进行融合, 使得k值逐渐趋向真实值. 实验表明, 该方法具有良好的实用性.  相似文献   

9.
针对传统单类学习模型对多模态或多密度分布数据描述能力不足的问题,将集成聚类和聚类稳定性分析引入单类学习.首先将确定聚类簇个数与确定聚类簇分布统一到同一个增强单类学习框架中,之后各聚类簇互为正负类分别建起立多个单类分类模型,最后采用最大融合体积方法融合其决策边界.以经典的支持向量数据描述(SVDD)为例,设计了基于集成聚类的稳定支持向量数据描述算法——ECS-SVDD.在标准UCI数据集和一个真实恶意程序行为数据集上的实验结果表明,ECS-SVDD的性能较单个支持向量数据描述及同类单类学习方法更优.该方法可直接推广到其他最小包含体积集合类型的单类学习算法上,以增强单类学习算法处理多模态和多密度分布数据的能力.  相似文献   

10.
该文面向本体关系集合的自动构建,提出一种基于百科词条的本体概念聚类方法,用于发现领域概念之间的语义关系。在给定领域本体概念集合的条件下,该方法首先获取相关的百科词条并建立每一概念的向量模型,然后根据距离判别法进行概念聚类,得到概念间的相近关系。采用该方法对3个领域中的领域概念集合进行聚类,实验结果表明,该文方法比传统聚类算法有更好的聚类结果,有助于概念间关系的自动获取和领域本体自动构建。  相似文献   

11.
混合属性数据聚类的新方法   总被引:1,自引:0,他引:1  
提出了一种数值型和类别型混合属性数据聚类的全局算法。算法通过随机选取足够多的初始原型来覆盖数据集的全局分布信息,然后通过评估函数迭代地消去多余的原型。最后对本文算法进行了验证,证明了该算法的有效性和收敛性。并与其他已有同类型算法的聚类结果进行比较,说明本文算法对混合属性数据具有更高的聚类准确度,为解决混合型数据聚类问题提供了一种新途径。  相似文献   

12.
提出了一个微粒群优化算法(autoPSO)自动聚类高维数据。autoPSO优化了Davies-Bouldin(DB)有效性函数,并将聚类问题转化为一个界约束的连续函数的优化问题。用一个实数矩阵和一个二进制向量来表示微粒,使得同一迭代中能够表示具有不同聚类数目的划分;并且,在二进制向量的控制下指导相关联的实数矩阵交叉操作,保持算法良好的种群多样性,避免算法早熟收敛。通过高维模拟数据集的实验结果表明,本文算法不需要预设聚类数目k,能够自动正确识别高维数据的聚类。  相似文献   

13.
High-order tensor data are prevalent in real-world applications, and multiway clustering is one of the most important techniques for exploratory data mining and compression of multiway data. However, existing multiway clustering is based on the K-means procedure and is incapable of addressing the issue of crossed membership degrees. To overcome this limitation, we propose a flexible multiway clustering model called approximately orthogonal nonnegative Tucker decomposition(AONTD). The new model provides extra flexibility to handle crossed memberships while fully exploiting the multilinear property of tensor data.The accelerated proximal gradient method and the low-rank compression tricks are adopted to optimize the cost function. The experimental results on both synthetic data and real-world cases illustrate that the proposed AONTD model outperforms the benchmark clustering methods by significantly improving the interpretability and robustness.  相似文献   

14.
According to the characteristics of sonar image data with manifold feature, the sonar image detection method based on two-phase manifold partner clustering algorithm is proposed. Firstly, K-means block clustering based on euclidean distance is proposed to reduce the data set. Mean value, standard deviation, and gray minimum value are considered as three features based on the relatinship between clustering model and data structure. Then K-means clustering algorithm based on manifold distance is utilized clustering again on the reduced data set to improve the detection efficiency. In K-means clustering algorithm based on manifold distance, line segment length on the manifold is analyzed, and a new power function line segment length is proposed to decrease the computational complexity. In order to quickly calculate the manifold distance, new all-source shortest path as the pretreatment of efficient algorithm is proposed. Based on this, the spatial feature of the image block is added in the three features to get the final precise partner clustering algorithm. The comparison with the other typical clustering algorithms demonstrates that the proposed algorithm gets good detection result. And it has better adaptability by experiments of the different real sonar images.  相似文献   

15.
模糊P均值聚类(FCM)的算法是在硬P均值算法(HCM)发展而来的,虽然改进了硬产均值算法的聚类效果,但带来了时间复杂度的增加.提出了一种基于协议分析分类的并行入侵检测模型,根据协议分析将大的数据集进行分类。构成不同的数据集,先对各个数据集进行FCM聚类。然后对每个FCM聚类的结果再次进行FCM聚类.构成并行处理系统.采用协议分析技术结合高速数据包捕捉、协议解析等技术来进行分布式入侵检测,可以提高入侵检测的速度.  相似文献   

16.
针对传统聚类算法在对复杂密集型数据集聚类时不能取得较好聚类结果的问题,利用进化聚类算法对复杂密集型数据集进行聚类,提出一种基于蚁群系统的聚类算法(clustering algorithm based on ant colony system,CAACS),利用蚂蚁在行进路径中释放信息素且追求浓信息素的原理来实现蚂蚁的随机搜索,并引入近邻函数值的概念来确定样本数据之间的相似性,通过蚂蚁在行走过程中不断建立样本数据之间的最相似连接来形成各个子连通图,各个子连通图中的样本数据构成一个类。实验采用随机产生的不规则数据集以及一系列合成的数据集将CAACS算法与DBSCAN算法(density-based spatial clustering of application with noise)及面向非规则非致密空间分布数据的蚁群聚类方法进行比较。实验结果表明CAACS算法对复杂密集型数据集能达到较好的聚类结果。  相似文献   

17.
随着无线网络的广泛应用,面向接受信号强度(RSS)指纹定位的接入点(AP)日益增多,导致一些AP的作用是冗余的,甚至对定位产生不利影响,同时也增加了定位计算的开销。通过对AP进行适当筛选可以一定程度上去除冗余AP,但定位效果会随着AP数量发生较大变化,甚至会增大误差。本文提出一种基于信息区分度的AP有效集构建方法(EID),充分利用指纹信号在不同空间的差异,实现了准确的位置估计。首先,用信息区分度评估AP的定位能力,有效反映出每个AP在不同采样点的区别,展示AP对空间位置的分辨程度。然后,基于AP信息区分度设计更加符合现实环境的增量聚类算法,能根据AP的定位能力得到不同类别的集合并具有较好的鲁棒性。最后,利用点集距离最大原则提出AP有效集选择策略,根据聚类结果和选择要求,选择出合适的AP集合。本文在真实场景下进行实验验证,并与现有的AP选择方法,即基于组判别(GDB)算法、基于软件定义网络(SDN)算法和基于非均匀量化RSS熵(NQRE)算法对比,在减少不低于40%AP数量的情形下,EID将定位精度分别提升了18.7%、11.2%和14.6%。与此同时,本文方法具有更好的稳定性,在95%的情形下定位误差低于1.2 m。  相似文献   

18.
提出基于加权残差聚类的建筑负荷预测区间估计方法,旨在对建筑负荷预测模型的不确定性进行定量评估. 使用Shapley additive explanations方法量化负荷预测模型的每个输入对输出的贡献程度. 基于得到的贡献程度对模型输入进行加权聚类,获得不同聚类簇中的模型历史残差分布. 根据不同聚类簇中的残差分布估计模型的预测区间. 在深圳某办公建筑1 a的冷负荷数据集上进行验证. 结果表明,与传统不对输入进行加权的方法相比,该方法可以显著提高预测区间的估计精度. 期望得到的预测区间与该方法得到的预测区间的平均覆盖误差为1.87%,而传统方法的平均覆盖误差为2.27%. 该方法可以用于估计任何数据驱动的建筑负荷预测模型的不确定性,从而为优化控制和故障诊断提供更可靠的负荷预测模型.  相似文献   

19.
为提高差分隐私保护下推荐算法的准确性,提出了一种考虑差分隐私保护的基于Bhattacharyya系数(BC)的聚类推荐算法.以BC作为项目相似性度量的标准,根据BC相似性对项目进行K-medoids聚类,并在聚类簇中进行私有项目邻居选择.最后,根据最近邻居集信息,对用户的评分进行预测和Top-n推荐.提出的方案有效地克服了已有方法中存在的相似性度量依赖于共同评分的问题,提高了相似性度量的准确性,有效避免了因隐私保护而造成的最近邻居集质量下降的问题.理论分析和实验测试的结果表明,该方法在实现隐私保护的同时还能有效保证推荐的高质量,较好地实现了隐私保护和数据效用之间的平衡,具有良好的应用潜力.  相似文献   

20.
针对流形学习算法Isomap对于稀疏数据局部邻域大小选择的敏感性,提出一种自适应邻域选择的降维方法 A-Isomap(Adaptive-Isomap).在数据稀疏的情况下,通过邻域选取算法自适应的动态选择每一个样本点的邻域大小,很大程度上避免了对短路点的选择;同时,使用聚类信息来汇聚相似的样本点,保证了降维后的数据具有很好的可分性.为了验证算法的有效性,将该算法应用于手工流形的降维,结果表明该算法能较好的展现降维效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号