共查询到18条相似文献,搜索用时 265 毫秒
1.
针对受均匀效应的影响,当前K-means型软子空间算法不能有效聚类不平衡数据的问题,提出一种基于划分的不平衡数据软子空间聚类新算法。首先,提出一种双加权方法,在赋予每个属性一个特征权重的同时,赋予每个簇反映其重要性的一个簇类权重;其次,提出一种混合型数据的新距离度量,以平衡不同类型属性及具有不同符号数目的类属型属性间的差异;第三,定义了基于双加权方法的不平衡数据子空间聚类目标优化函数,给出了优化簇类权重和特征权重的表达式。在实际应用数据集上进行了系列实验,结果表明,新算法使用的双权重方法能够为不平衡数据中的簇类学习更准确的软子空间;与现有的K-means型软子空间算法相比,所提算法提高了不平衡数据的聚类精度,在其中的生物信息学数据上可以取得近50%的提升幅度。 相似文献
2.
在数据稀少、数据维度高、多视角聚类任务的情况下,传统极大熵聚类算法会因类中心趋于一致,从而导致聚类失败。为解决此类问题,在传统极大熵聚类算法的基础上,引入类中心惩罚机制,融合权重矩阵实现多视角划分融合,构建出类中心极大的多视角极大熵聚类算法。该算法通过调整每个视角上的权重来体现某个视角的重要性,并通过类中心极大惩罚项解决了多视角聚类任务下,因数据稀少、数据维度高导致每个视角上的类中心趋于一致的问题。通过大量实验进一步证明,该算法在处理高维度、数据稀少、存在干扰数据和多视角的数据集时,其聚类效果明显优于传统的聚类算法。 相似文献
3.
现有多视角子空间聚类方法大多学习多视角数据的一致共享信息,并将每个视角的贡献视为同等重要以集成多个视角的差异信息.然而此思想忽略不同视角间可能存在的噪声或冗余,导致最终聚类性能不佳.为此,文中提出流形正则引导的自适应加权多视角子空间聚类算法.算法采用核范数学习每个视角的一致性全局低秩表示信息并利用组效应刻画不同视角的差异信息.根据流形正则的思想,自适应学习每个视角的权重,自动为每个视角的差异信息分配贡献度.再根据自适应权重集成差异信息并融合一致信息,获得最终的共识表示.最后利用该共识表示实现聚类.在6个公开数据集上的实验表明文中算法能有效提升多视角聚类性能. 相似文献
4.
《计算机科学与探索》2016,(4):554-564
当前,极大熵聚类(maximum entropy clustering,MEC)在面对多视角聚类任务时,是将多视角样本合并成为一个整体样本再进行处理,然而这样会破坏各视角的独立性特征,进而影响最终的划分结果。针对该问题,首先提出多视角协同划分极大熵聚类算法(multi-view collaborative partition MEC,Co MEC),该算法加入一个协调各视角空间划分的约束项,使得每一视角在单独聚类过程中考虑到其他视角的影响;然后通过区分每个视角的重要性将Co MEC算法扩展为视角加权版本,即视角加权协同划分极大熵聚类算法(view weighted collaborative partition MEC,W-Co MEC);最后利用几何均值的集成策略得到全局性的划分结果。在人工数据集以及UCI数据集上的实验结果均显示所提算法较之已有的聚类技术在应对多视角聚类任务时具有更好的聚类性能。 相似文献
5.
研究了多视角聚类问题,由于多视角聚类考虑到每个样本在多个视角的信息后进行聚类,并利用了更多的有效信息,因而较单视角聚类算法更优。目前绝大多数多视角聚类算法在聚类过程中认为各个视角同等重要,但是如果其中存在质量较差的视角,则会严重影响聚类的最终结果。不同的视角由于其包含信息质量的差异,对聚类最终结果的影响也是不同的。根据每个视角对聚类的贡献率赋予每个视角不同的权值,并利用中心化策略,提出了基于视角熵权重的中心化多视角模糊聚类(entropy weighting centralized multi-view fuzzy clustering,EWCMVC)算法。在人工数据集和实际数据集上的仿真结果验证了该算法聚类性能优于传统单视角和多视角聚类算法。 相似文献
6.
针对传统K-means型算法的"均匀效应"问题,提出一种基于概率模型的聚类算法。首先,提出一个描述非均匀数据簇的高斯混合分布模型,该模型允许数据集中同时包含密度和大小存在差异的簇;其次,推导了非均匀数据聚类的目标优化函数,并定义了优化该函数的期望最大化(EM)型聚类算法。分析结果表明,所提算法可以进行非均匀数据的软子空间聚类。最后,在合成数据集与实际数据集上进行的实验结果表明,所提算法有较高的聚类精度,与现有K-means型算法及基于欠抽样的算法相比,所提算法获得了5%~50%的精度提升。 相似文献
7.
当前,基于协同学习机制的多视角聚类技术存在如下两点不足:第一,以往构造的用于各视角协同学习的逼近准则物理含义不明确且控制简单;第二,以往算法均默认各视角的重要性程度是相等的,缺少各视角重要性自适应调整的能力。针对上述不足:首先,基于具有良好物理解释性的Havrda-Charvat熵构造了一个全新的异视角空间划分逼近准则,该准则能有效地控制异视角间的空间划分相似程度;其次,基于香农熵理论提出了多视角自适应加权策略,可有效地控制各视角的重要性程度,提高算法的聚类性能;最后,基于FCM框架提出了熵加权多视角协同划分模糊聚类算法(entropy weight-collaborative partition-multi-view fuzzy clustering algorithm,简称EW-CoP-MVFCM)。在模拟数据集以及 UCI 数据集上的实验结果均显示,所提算法较之已有多视角聚类算法在应对多视角聚类任务时具有更好的适应性。 相似文献
8.
K-means算法是被广泛使用的一种聚类算法,传统的K-means算法中初始聚类中心的选择具有随机性,易使算法陷入局部最优,聚类结果不稳定。针对此问题,引入多维网格空间的思想,首先将样本集映射到一个虚拟的多维网格空间结构中,然后从中搜索出包含样本数最多且距离较远的子网格作为初始聚类中心网格,最后计算出各初始聚类中心网格中所包含样本的均值点来作为初始聚类中心。此法选择出来的初始聚类中心与实际聚类中心拟合度高,进而可据此初始聚类中心稳定高效地得到最终的聚类结果。通过使用计算机模拟数据集和UCI机器学习数据集进行测试,结果表明改进算法的迭代次数和错误率比较稳定,且均小于传统K-means算法测试结果的平均值,能有效避免陷入局部最优,并且聚类结果稳定。 相似文献
9.
如何有效挖掘多视角数据内部的一致性以及差异性是构建多视角模糊聚类算法的两个重要问题.本文在Co-FKM算法框架上,提出了基于低秩约束的熵加权多视角模糊聚类算法(Entropy-weighting multi-view fuzzy C-means with low rank constraint,LR-MVEWFCM).一方面,从视角之间的一致性出发,引入核范数对多个视角之间的模糊隶属度矩阵进行低秩约束;另一方面,基于香农熵理论引入视角权重自适应调整策略,使算法根据各视角的重要程度来处理视角间的差异性.本文使用交替方向乘子法(Alternating direction method of multipliers,ADMM)进行目标函数的优化.最后,人工模拟数据集和UCI(University of California Irvine)数据集上进行的实验结果验证了该方法的有效性. 相似文献
10.
针对传统的K-means算法无法预先明确聚类数目,对初始聚类中心选取敏感且易受离群孤点影响导致聚类结果稳定性和准确性欠佳的问题,提出一种改进的基于密度的K-means算法。该算法首先基于轨迹数据分布密度和增加轨迹数据关键点密度权值的方式选取高密度的轨迹数据点作为初始聚类中心进行K-means聚类,然后结合聚类有效函数类内类外划分指标对聚类结果进行评价,最后根据评价确定最佳聚类数目和最优聚类划分。理论研究与实验结果表明,该算法能够更好地提取轨迹关键点,保留关键路径信息,且与传统的K-means算法相比,聚类准确性提高了28个百分点,与具有噪声的基于密度的聚类算法相比,聚类准确性提高了17个百分点。所提算法在轨迹数据聚类中具有更好的稳定性和准确性。 相似文献
11.
多视角数据的涌现对传统单视角聚类算法提出了挑战.利用单视角聚类算法独立地对每个视角进行划分,再通过集成机制获取全局划分的方法,人为地割裂了视角之间的内在联系,难以获得理想的聚类效果.针对此问题,提出了一个多视角聚类模型.该模型不仅考虑了视角内的划分质量,还兼顾了视角间的协同学习机制.对于视角内的划分,为了捕捉更为准确的簇内结构信息,采用多代表点的簇结构表示策略;对于视角间的协同学习机制,假设簇中代表点在不同视角下,其代表性保持.因此,在该模型基础上提出了基于代表点一致性约束的多视角模糊聚类算法(multi-view fuzzy clustering with a medoid invariant constraint,简称MFCMddI).该算法通过最大化两两相邻视角下代表点权重系数的乘积之和来保证代表点一致性.MFCMddI的目标函数可通过引入拉格朗日乘子和KKT条件进行优化.在人工数据集以及真实数据集上的实验结果均表明,该算法相对于所引入的对比算法而言具有一定的优势. 相似文献
12.
针对现有的单视图数据竞争聚类算法无法高效处理多视图数据的问题,提出了基于视图相关因子的多视图数据竞争聚类算法。首先,为了描述不同视图之间的相关性定义了一种视图相关性因子;然后,将视图相关因子与谱方法关于拉普拉斯矩阵的目标函数最大化问题结合,建立一个联合目标函数,使得不同视图之间的信息相互影响,以充分利用多视图的信息。通过解决联合目标函数的优化问题,得到每个视图的优化嵌入矩阵;最后,将得到的优化嵌入矩阵用于数据竞争聚类算法中。在人工和真实数据集上的仿真实验结果表明,新算法比现有的数据竞争聚类算法具有更高的聚类性能。 相似文献
13.
In big data era, more and more data are collected from multiple views, each of which reflect distinct perspectives of the data. Many multi-view data are accompanied by incompatible views and high dimension, both of which bring challenges for multi-view clustering. This paper proposes a strategy of simultaneous weighting on view and feature to discriminate their importance. Each feature of multi-view data is given bi-level weights to express its importance in feature level and view level, respectively. Furthermore, we implements the proposed weighting method in the classical k-means algorithm to conduct multi-view clustering task. An efficient gradient-based optimization algorithm is embedded into k-means algorithm to compute the bi-level weights automatically. Also, the convergence of the proposed weight updating method is proved by theoretical analysis. In experimental evaluation, synthetic datasets with varied noise and missing-value are created to investigate the robustness of the proposed approach. Then, the proposed approach is also compared with five state-of-the-art algorithms on three real-world datasets. The experiments show that the proposed method compares very favourably against the other methods. 相似文献
14.
针对传统K-均值算法对初始聚类中心选择较为敏感的问题,提出了一种基于融合集群度与距离均衡优化选择的K-均值聚类(K-MCD)算法。首先,基于"集群度"思想选取初始簇中心;然后,遵循所有聚类中心距离总和均衡优化的选择策略,获得最终初始簇中心;最后,对文本集进行向量化处理,并根据优化算法重新选取文本簇中心及聚类效果评价标准进行文本聚类分析。对文本数据集从准确性与稳定性两方面进行仿真实验分析,与K-均值算法相比,K-MCD算法在4个文本集上的聚类精确度分别提高了18.6、17.5、24.3与24.6个百分点;在平均进化代数方差方面,K-MCD算法比K-均值算法降低了36.99个百分点。仿真结果表明K-MCD算法能有效提高文本聚类精确度,并具有较好的稳定性。 相似文献
15.
随着数据来源方式的多样化发展,多视图聚类成为研究热点。大多数算法过于专注利用图结构寻求一致表示,却忽视了如何学习图结构本身;此外,一些方法通常基于固定视图进行算法优化。为了解决这些问题,提出了一种基于相似图投影学习的多视图聚类算法(multi-view clustering based on similarity graph projection learning, MCSGP),通过利用投影图有效地融合了全局结构信息和局部潜在信息到一个共识图中,而不仅是追求每个视图与共识图的一致性。通过在共识图矩阵的图拉普拉斯矩阵上施加秩约束,该算法能够自然地将数据点划分到所需数量的簇中。在两个人工数据集和七个真实数据集的实验中,MCSGP算法在人工数据集上的聚类效果表现出色,同时在涉及21个指标的真实数据集中,有17个指标达到了最优水平,从而充分证明了该算法的优越性能。 相似文献
16.
Syed Fawad Hussain Muhammad Mushtaq Zahid Halim 《Journal of Intelligent Information Systems》2014,43(1):81-99
Multi-view clustering has become an important extension of ensemble clustering. In multi-view clustering, we apply clustering algorithms on different views of the data to obtain different cluster labels for the same set of objects. These results are then combined in such a manner that the final clustering gives better result than individual clustering of each multi-view data. Multi view clustering can be applied at various stages of the clustering paradigm. This paper proposes a novel multi-view clustering algorithm that combines different ensemble techniques. Our approach is based on computing different similarity matrices on the individual datasets and aggregates these to form a combined similarity matrix, which is then used to obtain the final clustering. We tested our approach on several datasets and perform a comparison with other state-of-the-art algorithms. Our results show that the proposed algorithm outperforms several other methods in terms of accuracy while maintaining the overall complexity of the individual approaches. 相似文献
17.
现有的多视角谱聚类算法大多只线性结合了各视角的基拉普拉斯矩阵,未考虑不同视角数据的差异性对最优拉普拉斯矩阵的影响,存在聚类性能受限的问题。提出一种基于黎曼几何均值与高阶拉普拉斯矩阵的谱聚类算法(RMMSC),挖掘多视角数据中的高阶连接信息与流形信息,提高最优拉普拉斯矩阵对各视角的信息利用率。按一定的权重线性结合数据单一视角的各阶拉普拉斯矩阵,得到每个视角的基拉普拉斯矩阵,通过低阶与高阶连接信息的结合使用,充分体现多视角数据集的全局结构。在此基础上,计算各视角基拉普拉斯矩阵的黎曼几何均值,将其作为最优拉普拉斯矩阵输入谱聚类算法,得到聚类结果。相比于传统矩阵算数均值的计算,基于黎曼流形的黎曼几何均值能够更好地恢复互补层数据的流形信息。实验结果表明,RMMSC在多组标准数据集上聚类效果优于ONMSC、MLAN、AMGL等算法。其中,在Flower17数据集上,精确度较基准算法ONMSC提高了2.14%,纯度提高了1.7%,且收敛性较好。 相似文献
18.
现有的多视图聚类算法大多假设多视图数据点之间为线性关系,且在学习过程中无法保留原始特征空间的局部性;而在欧氏空间中进行子空间融合又过于单调,无法将学习到的子空间表示对齐。针对以上问题,提出了基于格拉斯曼流形融合子空间的多视图聚类算法。首先,将核技巧和局部流形结构学习结合以得到不同视图的子空间表示;然后,在格拉斯曼流形上融合这些子空间表示以得到一致性亲和矩阵;最后,对一致性亲和矩阵执行谱聚类来得到最终的聚类结果,并利用交替方向乘子法(ADMM)来优化所提模型。与核多视图低秩稀疏子空间聚类(KMLRSSC)算法相比,所提算法的聚类精度在MSRCV1、Prokaryotic、Not-Hill数据集上分别提高了20.83个百分点、9.47个百分点和7.33个百分点。实验结果验证了基于格拉斯曼流形融合子空间的多视图聚类算法的有效性和良好性能。 相似文献