首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
传统的浅层文本聚类方法在对短文本聚类时,面临上下文信息有限、用词不规范、实际意义词少等挑战,导致文本的嵌入表示稀疏、关键特征难以提取等问题。针对以上问题,文中提出一种融合简单数据增强方法的深度聚类模型SSKU(SBERT SimCSE K-means Umap)。该模型采用SBERT对短文本进行嵌入表示,利用无监督SimCSE方法联合深度聚类K-Means算法对文本嵌入模型进行微调,改善短文本的嵌入表示使其适于聚类。使用Umap流形降维方法学习嵌入局部的流形结构来改善短文本特征稀疏问题,优化嵌入结果。最后使用K-Means算法对降维后嵌入进行聚类,得到聚类结果。在StackOverFlow, Biomedical等4个公开短文本数据集进行大量实验并与最新的深度聚类算法作对比,结果表明所提模型在准确度与标准互信息两个评价指标上均表现出良好的聚类性能。  相似文献   

2.

针对启发式特征选择策略忽略了特征间相关信息导致子最优的问题, 提出一种基于流形鉴别信息的特征选择(MDFS) 算法. 该算法根据近邻信息和标签信息刻画高维数据类内和类间流形结构, 以最小化流形散度差为准则构建目标函数, 并增加结构化稀疏正则项降低特征间冗余. 通过统一框架下的特征权重迭代优化获得最优特征子集. 在ORL 库、COIL20 库、Isolet1 库上的聚类实验表明, MDFS算法选取的特征子集相比传统算法具有更高的识别准确率和归一化互信息, 验证了所提出算法的有效性.

  相似文献   

3.
经典的流形学习算法假设样本数据位于高维单流形上,但在现实生活中的真实数据通常位于高维多流形上,且这些数据往往相互交叠,导致流形学习算法效果不佳。传统的标签传播算法通过相似性矩阵构建连接矩阵,实现良好分离数据的聚类,但不能有效聚类相互交叠的多流形数据。针对该问题,提出一种面向相交多流形的标签传播算法LPAMMC。采用局部主成分分析算法确定相交多流形数据的相交区域,并基于混合概率主成分分析(MPPCA)模型和多流形的拓扑结构划分相互交叠的子流形,构建“must-link”和“cannot-link”聚类约束,通过约束构建适合相交多流形数据的传播矩阵,实现标签传播算法。LPAMMC算法通过MPPCA模型和多流形拓扑结构划分出子流形,提高相交多流形数据的聚类精度,且MPPCA模型仅用于多流形数据的相交区域,降低了计算复杂度。实验结果表明,LPAMMC算法不仅具有标签传播算法速度快的特点,且能有效聚类相交多流形数据。在Two spirals数据集上的聚类精度、标准互信息和调整兰德系数取得了与SMMC算法相同的性能,运行时间缩短86.7个百分点。  相似文献   

4.
谱嵌入聚类(SEC)算法要求样本满足流形假设,样本标签总是可以嵌入到一个线性空间中去,这为线性可分数据的谱嵌入聚类问题提供了新的思路,但该算法使用的线性映射函数不适用于处理高维非线性数据。针对这一问题,通过核化线性映射函数,建立了基于核函数的谱嵌入聚类(KSEC)模型,该模型既能解决线性映射函数不能处理非线性数据的问题,又实现了对高维数据的核降维。在真实数据集上的实验分析结果表明,使用所提算法后聚类正确率平均提高了13.11%,最高可提高31.62%,特别在高维数据上平均提高了16.53%,而且在算法关于参数的敏感度实验中发现算法的稳定性更好。所以改进后的算法对高维非线性数据具有很好的聚类效果,获得了比传统谱嵌入聚类算法更高的聚类准确率和更好的聚类性能。所提方法可以用于诸如遥感影像这类复杂图像的处理领域。  相似文献   

5.
夏建明  杨俊安 《控制与决策》2013,28(10):1485-1490
当数据含有噪声或标签错误时,传统的属性选择方法(如粗糙集)无法得到正确结果,为此提出一种针对含噪、标签错误数据的属性选择方法。首先用最大边界投影方法获得数据的最佳投影;然后通过对投影矩阵进行L2,1范数正则化操作,进而获得行稀疏的投影矩阵,据此获得对关键属性的挖掘;最后给出方法的收敛性和针对标签错误数据的有效性证明。实验结果表明,所提出的算法克服了噪声和标签错误的影响,较好地实现了针对含噪、标签错误数据的属性选择。  相似文献   

6.
流形学习算法在构造图模型时假设观测数据来自一个光滑的流形采样,但实际高维数据中由于各种因素经常存在噪声或异常值.针对概念分解算法无法有效地处理数据中存在的噪声问题,同时未考虑数据间的几何结构信息问题,提出一种基于稀疏约束的流形正则化概念分解算法.该算法通过l2,1范数对目标函数进行稀疏约束,得到具有鉴别能力的特征向量;同时构建拉普拉斯图正则项获得数据的流形结构信息,提高算法的鉴别能力.最后对文中算法的目标函数进行求解并证明了其收敛性;在PIE人脸库、ATT人脸库、Reuters文本库和TDT2文本库上的实验结果表明,该算法提高了聚类的准确率和归一化互信息.  相似文献   

7.
多视角聚类的目的就是对由不同的特征集描述的数据进行聚类。传统算法大多直接对原始特征集聚类,而忽略了一些隐性信息对聚类性能的影响。已有一些多视角聚类方法试图发现嵌入在多视角数据中的隐性信息并基于隐性信息进行聚类,但此类算法会不同程度地损失原始特征的信息。针对此,提出了一种融合稀疏隐视角信息学习的多视角聚类算法。首先为了挖掘潜在的稀疏隐视角信息,提出了一种稀疏隐视角信息学习模型,通过求解该模型获得稀疏隐视角信息。然后在聚类过程中实现原始的特征集和稀疏隐视角信息的协同学习。在真实数据集上的实验结果表明,所提算法的聚类性能优于现有的聚类算法。  相似文献   

8.
现有的多视图聚类算法大多假设多视图数据点之间为线性关系,且在学习过程中无法保留原始特征空间的局部性;而在欧氏空间中进行子空间融合又过于单调,无法将学习到的子空间表示对齐。针对以上问题,提出了基于格拉斯曼流形融合子空间的多视图聚类算法。首先,将核技巧和局部流形结构学习结合以得到不同视图的子空间表示;然后,在格拉斯曼流形上融合这些子空间表示以得到一致性亲和矩阵;最后,对一致性亲和矩阵执行谱聚类来得到最终的聚类结果,并利用交替方向乘子法(ADMM)来优化所提模型。与核多视图低秩稀疏子空间聚类(KMLRSSC)算法相比,所提算法的聚类精度在MSRCV1、Prokaryotic、Not-Hill数据集上分别提高了20.83个百分点、9.47个百分点和7.33个百分点。实验结果验证了基于格拉斯曼流形融合子空间的多视图聚类算法的有效性和良好性能。  相似文献   

9.
针对现有的基于图的半监督学习(graph-based semi-supervised learning,简称GSSL)方法存在模型参数敏感和数据空间判别信息不充分等问题,受最近特征空间嵌入和数据稀疏表示思想的启发,提出一种稀疏近似最近特征空间嵌入标签传播算法SANFSP(sparse approximated nearest feature space embedding label propagation).SANFSP首先利用特征空间嵌入投影点来稀疏表示原始数据;然后,度量原始数据和稀疏近似最近特征空间嵌入投影间的相似性;进而提出稀疏近似最近特征空间嵌入正则化项;最后,基于传统GSSL 方法的标签传播算法,实现数据标签的平滑传播.同时,还将SANFSP 算法简单拓展到out-of-sample 学习.SANFSP 算法在人造和实际数据集(如人脸识别、可视物件识别以及手写数字分类等)上取得了有效的实验结果.  相似文献   

10.
谱聚类能发现数据的非线性低秩结构,在模式识别等领域应用广泛.谱聚类与图模型、流形嵌入、积分算子理论等紧密相关,存在着潜在的联系,但相关理论尚缺乏系统的研究.文中首先从谱聚类的研究现状出发,介绍它的一般性问题,即再生核空间中的积分算子特征函数学习问题.然后讨论谱聚类与核主成分、核k-means算法、Laplacian特征映射、流形学习、判别分析之间的内在联系.进而简要分析NJW算法、Ncut算法、基于Nystrm方法的谱聚类算法、多尺度谱聚类算法以及多层谱聚类算法.最后总结存在的问题和未来的发展趋势.  相似文献   

11.
针对稀疏编码在数据表示时没有利用样本类别信息的问题,提出一种基于监督学习的稀疏编码算法,并应用于数据表示.首先利用样本的类别信息构建图,直接提取样本的鉴别结构信息;然后利用基向量拟合鉴别结构特性向量,进而在基向量中嵌入样本的鉴别信息;最后对样本逐个进行稀疏表示.在COIL20和PIE图像库的实验结果表明,相比几种无监督矩阵分解算法,所提出的算法更利于样本的表示和分类.  相似文献   

12.

以改进的流形距离为相似度测度, 结合人工蜂群算法, 提出一种二阶段聚类算法. 首先根据局部密度、最大最小距离和近邻选择对数据集初步归类并得到簇代表点; 然后将聚类归属为优化问题, 通过改进的蜂群算法对簇代表点及没归类的样本点较快地搜索到最优聚类中心, 同时根据流形距离的全局一致性特征, 对样本进行精确的类别划分; 最后将两阶段算法综合归类. 实验结果表明, 所提出的算法可以获得良好的聚类效果.

  相似文献   

13.

针对传统图模型的流形学习无法准确表达数据间多元几何结构信息的问题, 提出一种基于超图正则化的概念分解(HRCF) 算法. 该算法用一组具有相似属性的数据子集构建超边, 建立数据间高阶关系的超图模型. 通过在概念分解算法中增加超图正则项, 保持数据间多元几何流形结构, 提高了算法的鉴别性. 在Yale 库、USPS 库和TDT2 库上的实验表明, HRCF 算法明显提高了聚类的准确率和归一化互信息, 验证了算法的有效性.

  相似文献   

14.
程昊翔  王坚 《控制与决策》2016,31(3):551-554

针对数据中存在的噪声对数据描述建模的影响, 提出一种基于快速聚类分析的支持向量数据描述算法. 该算法通过快速聚类分析算法对所要建模的数据进行预处理, 通过预处理快速剔除数据中存在的影响建模的噪声; 然后再将基于??NN算法计算获得的权重值加权在每一个数据上, 进行支持向量数据描述算法的建模. 在标准数据集上的实验分析表明, 所提出的支持向量数据描述算法较传统的支持向量数据描述算法和密度驱动支持向量数据描述算法在准确度上具有较明显的提升.

  相似文献   

15.

针对传统数据流聚类算法聚类信息损失大、不准确的缺点, 提出一种基于维度最大熵的数据流聚类算法. 采用动态数据直方图将数据维度划分为不同的维度组, 计算各维度最大熵划分维度空间簇, 将相同维度簇的数据聚集成微簇, 通过比较微簇的信息熵大小及其分布特点实现数据流的异常检测. 该方法提升了聚类速度, 克服了传统数据流聚类算法信息丢失的缺点. 实验结果表明, 所提出算法能够提高数据流异常检测的准确性和有效性.

  相似文献   

16.
何力  曲仕茹 《控制与决策》2014,29(3):396-402

提出一种相似矩阵迭代修正并聚类算法, 分为偏振定理的谱分离数据和球极平面逆投影的几何分离数据两步. 首先将数据谱分解, 得到低维距离矩阵; 然后投影到双随机矩阵, 隐式进行一次球极平面逆投影, 几何对称分离数据; 最后解算投影后坐标, 得到新相似矩阵. 实验在人工合成数据和自然数据上进行, 结果表明所提出算法修正了数据的相似度, 并获得了正确的聚类个数, 对尺度参数变化有较强的鲁棒性, 聚类性能比修正前有较大提升.

  相似文献   

17.
刘洋  张国山 《控制与决策》2016,31(7):1213-1218

提出敏感稀疏主元分析(SSPCA) 算法用于监测复杂的化工过程. 根据主元分析与数据矩阵奇异值分解之间的关系, 通过将??2,1 范数作为目标函数和惩罚项得到一个获取稀疏主元负载的凸优化问题, 并通过一个迭代算法进行求解. SSPCA 算法能同时兼顾大得分主元与小得分主元在监测算法中的作用, 提高了其对故障的敏感度. 证明了SSPCA 算法的单调性和全局收敛性, 对田纳西伊斯曼过程一个算例的监测结果表明了SSPCA 算法的有效性.

  相似文献   

18.

基于极限学习机理论, 将主成分分析技术与ELM特征映射相结合, 提出一种基于主成分分析的压缩隐空间构建新方法. 结合多层神经网络学习方法对隐空间进行多层融合, 进一步提出了堆叠隐空间模糊C 均值聚类算法,从而提高对非线性数据的学习能力. 实验结果表明, 所提出算法在处理复杂非线性数据时更加高效、稳定, 同时克服了模糊聚类算法对模糊指数的敏感性问题.

  相似文献   

19.

针对流数据的实时、有序和维数高等特点, 提出一种基于多种群协同微粒群优化的流数据聚类算法. 该算法利用变量分而治之的思想, 多个种群协同优化多个类中心, 进而求出问题完整的类中心集合. 给出一种类中心变化趋势的预估策略, 以快速追踪环境变化. 为防止多个子微粒群同时优化一个类中心, 提出一种相似子微粒群的合并策略. 最后将所提出的算法用于多个数据集, 实验结果验证了算法的有效性.

  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号