共查询到17条相似文献,搜索用时 31 毫秒
1.
现有子空间聚类算法不能很好地平衡子空间数据的稠密性和不同子空间数据稀疏性的关系,且无法处理数据的重叠问题。针对上述问题,提出一种稀疏条件下的重叠子空间聚类(OSCSC)算法。算法利用L1范数和Frobenius范数的混合范数表示方法建立子空间表示模型,并对L1范数正则项进行加权处理,提高不同子空间的稀疏性和同一子空间的稠密性;然后对划分好的子空间使用一种服从指数族分布的重叠概率模型进行二次校验,判断不同子空间数据的重叠情况,进一步提高聚类的准确率。在人造数据集和真实数据集上分别进行测试,实验结果表明,OSCSC算法能够获得良好的聚类结果。 相似文献
2.
针对稀疏子空间聚类(SSC)求得的系数矩阵过于稀疏和最小二乘回归子空间聚类(LSR)求得的系数矩阵过于稠密的问题,文中提出基于协同表示的子空间聚类算法(SCCR).结合SSC和LSR的优点,将l1范数和Frobenius范数引入同一优化问题中,使系数矩阵保证在同一子空间数据点联系(如LSR)的同时,消除不同子空间数据点之间的联系(如SSC).然后利用此系数矩阵建立相似矩阵,应用谱聚类得到聚类结果.实验表明SCCR可以提高聚类性能. 相似文献
3.
子空间聚类算法只能处理小规模数据,且无法处理样本外数据.针对此问题,文中提出采用二次采样策略的子空间聚类框架(TSSC).该框架由两个核心部件组成:判别性协作表示(DCR)与多尺度K近邻(KNN)采样方法.在TSSC中,DCR首先结合多尺度KNN对数据点进行特征变换,从而保证属于同一子空间的点有更一致的表示.为了提高算法的可扩展性,TSSC在新的特征空间中使用多尺度KNN对数据进行二次采样,并根据采样点获得的初步聚类结果训练线性分类器,最后根据学习得到的分类器对剩余样本点进行分类,获得最终的聚类结果.在真实数据集上的实验验证TSSC的有效性. 相似文献
4.
针对大多数子空间聚类方法处理非线性数据时聚类效果不理想、不同子空间数据相似性较高及聚类发生错误时无法及时校验的问题,提出局部加权最小二乘回归的重叠子空间聚类算法.利用K近邻思想突出数据的局部信息,取代非线性数据结构,通过高斯加权的方法选择最相似的近邻数据点,得到最优表示系数.然后使用重叠概率模型判断子空间内数据的重叠部分,再次校验聚类结果,提高聚类准确率.在人造数据集和真实数据集上分别进行测试,实验表明,文中算法能够取得较理想的聚类结果. 相似文献
5.
现有子空间聚类算法通常假设数据来自多个线性子空间,无法处理时间序列聚类中存在的非线性和时间轴弯曲问题.为了克服这些局限,通过引入核技巧和弹性距离,提出弹性核低秩表示子空间聚类和弹性核最小二乘回归子空间聚类,统称为弹性核子空间聚类,并从理论上证明弹性核最小二乘回归子空间算法的组效应和弹性核低秩表示子空间聚类算法的收敛性.在5个UCR时间序列数据集上的实验表明本文算法的有效性. 相似文献
6.
7.
传统子空间聚类算法向量化时忽略样本的自然结构信息,并且容易造成高维度小样本问题,从而导致聚类信息损失.为了弥补该缺陷,文中提出基于最小二乘回归的分块加权子空间聚类(WB-LSR).首先,将样本按维度分成若干块,并求得各个块对应的仿射矩阵.然后,通过相互投票方式对各仿射矩阵设置权重,将加权和作为最终的仿射矩阵.在图像数据和视频数据上的实验表明,文中方法能有效提升聚类准确率. 相似文献
8.
针对软子空间聚类算法搜寻聚类中心点容易陷入局部最优的缺点,提出在软子空间聚类框架下,结合量子行为粒子群优化(QPSO)和梯度下降法优化软子空间聚类目标函数的模糊聚类算法.根据QPSO全局寻优的特点,求解子空间中全局最优中心点,利用梯度下降法收敛速度快的特点,求解样本点的模糊权重和隶属度矩阵,最终获取样本点的最优聚类结果.在UCI数据集上的实验表明,文中算法可提高聚类精度和聚类结果的稳定性. 相似文献
9.
相似性度量是聚类分析的重要基础,如何有效衡量类属型符号间的相似性是相似性度量的一个难点.文中根据离散符号的核概率密度衡量符号间的相似性,与传统的简单符号匹配及符号频度估计方法不同,该相似性度量在核函数带宽的作用下,不再依赖同一属性上符号间独立性假设.随后建立类属型数据的贝叶斯聚类模型,定义基于似然的类属型对象-簇间相似性度量,给出基于模型的聚类算法.采用留一估计和最大似然估计,提出3种求解方法在聚类过程中动态确定最优的核带宽.实验表明,相比使用特征加权或简单匹配距离的聚类算法,文中算法可以获得更高的聚类精度,估计的核函数带宽在重要特征识别等应用中具有实际意义. 相似文献
10.
稀疏子空间聚类是利用子空间并集中数据向量的稀疏表示,从而将数据划分到各自子空间,该类方法关键是求出最优稀疏解。文中采用交替方向法求稀疏解,交替方向法把复杂问题分解成简单的、有效求解的子问题,达到最优速度。在交替方向法求解过程中,通常惩罚因子是恒定不变的。文中提出一种惩罚因子参数自调整策略,根据每次迭代信息,调整惩罚因子参数。基于运动分割数据和Hopkins数据库实验,结果表明在迭代次数和运算时间上,稀疏子空间聚类的交替方向法及其惩罚参数自调整策略比传统算法有很大提高,而且对噪声数据也非常有效。 相似文献
11.
Clustering based on matrix approximation: a unifying view 总被引:1,自引:7,他引:1
Tao Li 《Knowledge and Information Systems》2008,17(1):1-15
Clustering is the problem of identifying the distribution of patterns and intrinsic correlations in large data sets by partitioning
the data points into similarity classes. Recently, a number of methods have been proposed and demonstrated good performance
based on matrix approximation. Despite significant research on these methods, few attempts have been made to establish the
connections between them while highlighting their differences. In this paper, we present a unified view of these methods within
a general clustering framework where the problem of clustering is formulated as matrix approximations and the clustering objective
is minimizing the approximation error between the original data matrix and the reconstructed matrix based on the cluster structures.
The general framework provides an elegant base to compare and understand various clustering methods. We provide characterizations
of different clustering methods within the general framework including traditional one-side clustering, subspace clustering
and two-side clustering. We also establish the connections between our general clustering framework with existing frameworks.
相似文献
Tao LiEmail: |
12.
为了有效挖掘序列数据的时空信息,提出联合lp和l2,p范数极小化的序列子空间聚类算法.首先,定义依赖于样本距离的权重,构造基于l2,p范数的时序图,刻画数据在时间维度上的局部相似性.然后,考虑到非凸lp0
l1范数,能更有效地切断语义无关数据间的联系,所以采用lp范数度量表示矩阵的稀疏性.最后,通过线性化交替方向法求解优化模型.在视频、运动、人脸数据上的实验表明文中算法的有效性. 相似文献
13.
基于自表示关联图的谱聚类模型性能受冗余特征影响较大.为了缓解高维数据无效特征的负面影响,文中提出联合特征选择和光滑表示的子空间聚类算法.首先基于自表示思想构建系数矩阵,将特征选择与数据重构纳入同一框架,同时使用权值因子衡量相关特征贡献度,并对系数矩阵进行组效应约束以保持局部性.通过交替变量更新法优化目标函数模型.在人造数据与标准数据库上的实验表明,文中算法在各项性能上均较优. 相似文献
14.
针对多视角子空间聚类问题,提出基于隐式低秩稀疏表示的多视角子空间聚类算法(LLSMSC).算法构建多个视角共享的隐式结构,挖掘多视角之间的互补性信息.通过对隐式子空间的表示施加低秩约束和稀疏约束,捕获数据的局部结构和稀疏结构,使聚类结果更准确.同时,使用基于增广拉格朗日乘子交替方向最小化算法高效求解优化问题.在6个不同数据集上的实验验证LLSMSC的有效性和优越性. 相似文献
15.
在视频跟踪中,模型表示是直接影响跟踪效率的核心问题之一.在随时间和空间变化的复杂数据中学习目标外观模型表示所需的有效模板,从而适应内在或外在因素所引起的目标状态变化是非常重要的.文中详细描述较为鲁棒的目标外观模型表示策略,并提出一种新的多任务最小软阈值回归跟踪算法(MLST).该算法框架将候选目标的观测模型假设为多任务线性回归问题,利用目标模板和独立同分布的高斯-拉普拉斯重构误差线性表示候选目标不同状态下的外观模型,从而跟踪器能够很好地适应各种复杂场景并准确预测每一时刻的真实目标状态.大量实验证明,文中在线学习策略能够充分挖掘目标在不同时刻的特殊状态信息以提高模型表示精度,使得跟踪器保持最佳的状态,从而在一定程度上提高跟踪性能.实验结果显示,本文算法体现较好的鲁棒性并优于一些目前较先进的跟踪算法. 相似文献
16.
现有的图像分层表示方法严格局限于前馈型方式,不能较好地解决局部模糊性等问题。基于此,文中提出一种学习和推断层次结构所有分层的概率模型,它考虑递归的概率分解过程,通过推导得到金字塔式多层结构的潜在Dirichlet分布的衍生模型。该模型存在两个重要特性:增加表示层可提高平面模型的性能;采用全Bayesian概率方法优于其前馈型实现形式。在标准识别数据集上的实验结果表明,与现有的分层表示方法相比,该模型表现出较好性能。 相似文献
17.
Clustering multi-dense large scale high dimensional numeric datasets is a challenging task duo to high time complexity of most clustering algorithms. Nowadays, data collection tools produce a large amount of data. So, fast algorithms are vital requirement for clustering such data. In this paper, a fast clustering algorithm, called Dimension-based Partitioning and Merging (DPM), is proposed. In DPM, first, data is partitioned into small dense volumes during the successive processing of dataset dimensions. Then, noise is filtered out using dimensional densities of the generated partitions. Finally, merging process is invoked to construct clusters based on partition boundary data samples. DPM algorithm automatically detects the number of data clusters based on three insensitive tuning parameters which decrease the burden of its usage. Performance evaluation of the proposed algorithm using different datasets shows its fastness and accuracy compared to other clustering competitors. 相似文献