共查询到19条相似文献,搜索用时 93 毫秒
1.
提出了一种基于集成技术和谱聚类技术的混合数据聚类算法CBEST。它利用聚类集成技术产生混合数据间的相似性,这种相似性度量没有对数据特征值分布模型做任何的假设。基于此相似性度量得到的待聚类数据的相似性矩阵,应用谱聚类算法得到混合数据聚类结果。大量真实和人工数据上的实验结果验证了CBEST的有效性和它对噪声的鲁棒性。与其它混合数据聚类算法的比较研究也证明了CBEST的优越性能。CBEST还能有效融合先验知识,通过参数的调节来设置不同属性在聚类中的权重。 相似文献
2.
文章介绍了Web文档聚类中普遍使用的基于分割的k-means算法,分析了k-means算法所使用的向量空间模型和基于距离的相似性度量的局限性,从而提出了一种改善向量空间模型以及相似性度量的方法。实验表明,改进后的k-means算法不仅保留了原k-means算法效率高的优点,而且具有更高的准确性。 相似文献
3.
一种新的中心对称聚类算法 总被引:2,自引:0,他引:2
Data clustering is an important reserch field in data mining.The key of the clustering algorithm is the distance measure.In this paper,we put forward a new distance measure based on central symmetry,Then we apply it to data clustering.The experimental studies prove the feasibility of this algorithm and get a satisfied result in face detection. 相似文献
4.
目的 随着实际应用场景中海量数据采集技术的发展和数据标注成本的不断增加,自监督学习成为海量数据分析的一个重要策略。然而,如何从海量数据中抽取有用的监督信息,并该监督信息下开展有效的学习仍然是制约该方向发展的研究难点。为此,提出了一个基于共识图学习的自监督集成聚类框架。方法 框架主要包括3个功能模块。首先,利用集成学习中多个基学习器构建共识图;其次,利用图神经网络分析共识图,捕获节点优化表示和节点的聚类结构,并从聚类中挑选高置信度的节点子集及对应的类标签生成监督信息;再次,在此标签监督下,联合其他无标注样本更新集成成员基学习器。交替迭代上述功能块,最终提高无监督聚类的性能。结果 为验证该框架的有效性,在标准数据集(包括图像和文本数据)上设计了一系列实验。实验结果表明,所提方法在性能上一致优于现有聚类方法。尤其是在MNIST-Test(modified national institute of standards and technology database)上,本文方法实现了97.78%的准确率,比已有最佳方法高出3.85%。结论 该方法旨在利用图表示学习提升自监督学习中监督信息捕获... 相似文献
5.
6.
由于在实际应用中有大量的符号数据生成,符号数据聚类成为了聚类分析的一个重要研究领域.目前,已有许多符号数据聚类算法被提出,但将它们应用于大数据环境时,仍然存在计算成本高、运行速度慢等问题.文中提出了一种基于符号关系图的快速符号数据聚类算法.该算法使用符号关系图替代原始数据,缩小数据集的规模,有效地解决了这一问题.大量的... 相似文献
7.
8.
针对现有深度卷积嵌入聚类算法(deep convolutional embedded clustering,DCEC)的网络特征损失过大,对复杂图像没有提取有效特征的问题,提出一个具有17层网络结构的无监督深度聚类框架,并在编码层加入下采样层,减少参数和防止过拟合;在解码层加入上采样层还原下采样造成的细节损失。分别结合DEC(deep embedded clustering)算法的损失函数和IDEC(improved deep embedded clustering)算法的采用局部结构保留优势的损失函数,得到两种基于卷积自编码的深度学习图像聚类算法DEC_DCNN(deep embedded clustering based on deep convolutional neural network)和IDEC_DCNN(improved deep embedded clustering based on deep convolutional neural network),并使用自适应矩估计(adaptive moment estimation,Adam)和小批量随机梯度下降(mini-batch stochastic gradient decent,mini-batch SGD)两种优化方法调整模型参数。3个经典图像数据集的实验结果显示,提出的17层网络结构对图像特征具有很好的鲁棒性和通用性,基于该网络结构的深度聚类算法取得了远优于现有深度聚类算法的结果,其聚类准确率均优于对比算法;对深度聚类算法DEC_DCNN和IDEC_DCNN的聚类结果准确率、指标值AMI(adjusted mutual information)和ARI(adjusted rand index)进行比较,IDEC_DCNN比DEC_DCNN的聚类性能更好,说明IDEC_DCNN算法的性能更优越。 相似文献
9.
10.
介绍了Web文档聚类中普遍使用的、基于分割的k-means算法,分析了k-means算法所使用的向量空间模型和基于距离的相似性度量的局限性,从而提出了一种改善向量空间模型以及相似性度量的方法。 相似文献
11.
标签传播算法(LPA)是一种高效地处理大规模网络的社区发现算法,由于其近乎线性的时间复杂度而受到广泛关注。然而,该算法每个节点的标签依赖于其邻居节点,其迭代速度和聚类有效性对标签信息的更新顺序非常敏感,影响了社区发现结果的准确性和稳定性。基于该问题,提出了一种基于加权聚类集成的标签传播算法。该算法利用多次标签传播算法的结果作为基聚类集,并用模块度评估每个基聚类的重要性,使其作为节点相似性度量的权值形成加权相似性矩阵,最后通过层次聚类得出最终的社区划分结果。在实验分析中,该算法和其他5个具有代表性的标签传播算法的改进算法在真实数据集上进行了比较,展示了新算法能有效地提高标签传播算法的社区发现精度。 相似文献
12.
13.
基于深度神经网络的非监督学习方法通过联合优化特征表示和聚类指派,大大提升了聚类任务的性能。但大量的参数降低了运行速度,另外,深度模型提取的特征的区分能力也影响聚类性能。为此,提出一种新的聚类算法(asymmetric fully-connected layers convolutional auto-encoder, AFCAE),其中卷积编码器结合非对称全连接进行无监督的特征提取,然后K-means算法对所得特征执行聚类。网络采用3×3和2×2的小卷积核,大大减少了参数个数,降低了算法复杂性。在MNIST上AFCAE获得0.960的聚类精度,比联合训练的DEC(deep embedding clustering)方法(0.840)提高了12个百分点。在6个图像数据集上实验结果表明AFCAE网络有优异的特征表示能力,能出色完成下游的聚类任务。 相似文献
14.
高质量学习图中节点的低维表示是当前的一个研究热点。现有浅模型的方法无法捕捉图结构的非线性关系,图神经网络技术中的图卷积模型会产生过平滑问题。同时,如何确定不同跳数关系在图表示学习中的作用亦是研究中尚需解决的问题。以解决上述问题为目的,提出一个基于T(T>1)个前馈神经网络的深度学习模型,该框架利用深度模型抽取图结构的非线性关系,T个子模型有效地捕获图的局部和全局(高阶)关系信息,并且它们在最终的向量表示中赋予了不同的作用、从而发挥不同跳数关系的优势。在顶点分类和链接预测任务中的实验结果表明,该框架比现有方法具有竞争力,对比基准算法可以获得20%左右的提升。 相似文献
15.
在实际应用中,数据点中包含的冗余特征和异常值(噪声)严重影响了聚类中更显著的特征的发现,大大降低了聚类性能。本文提出了一种基于ELM-AE (extreme learning machine as autoencoder)特征表示的谱聚类算法(spectral clustering via extreme learning machine as autoencoder, SC-ELM-AE)。ELM-AE通过奇异值分解学习源数据主要特征表示,使用输出权值实现从特征空间到原输入数据的重构;再将该特征表示空间作为输入进行谱聚类。实验表明,在5个UCI数据集验证中,SC-ELM-AE算法性能优于传统的K-Means、谱聚类等现有算法,特别是在复杂高维数据集PEMS-SF和TDT2_10上,聚类平均精确度均提高30%以上。 相似文献
16.
节点标签是复杂网络中广泛存在的监督信息,对网络表示学习具有重要作用。基于此,提出了一种结合图自编码器与聚类的半监督表示学习方法(GAECSRL)。首先,以图卷积网络(GCN)和内积函数分别作为编码器和解码器,并构建图自编码器以形成信息传播框架;然后,在编码器生成的低维表示基础上增加k-means聚类模块,从而使图自编码器的训练过程和节点的类别分布划分形成自监督机制;最后,利用节点标签的判别信息对网络低维表示的类别划分进行指导,将网络表示生成、类别划分以及图自编码器的训练构建在一个统一的优化模型中,并获得融合节点标签信息的有效网络表示结果。在仿真实验中,将GAECSRL用于节点分类和链接预测任务。实验结果表明,相比DeepWalk、node2vec、全局结构信息图表示学习(GraRep)、结构化深度网络嵌入(SDNE)和用数据的转导式或归纳式嵌入预测标签和邻居(Planetoid),在节点分类任务中GAECSRL的Micro?F1指标提高了0.9~24.46个百分点,Macro?F1指标提高了0.76~24.20个百分点;在链接预测任务中,GAECSRL的AUC指标提高了0.33~9.06个百分点,说明GAECSRL获得的网络表示结果能有效提高节点分类和链接预测任务的性能。 相似文献
17.
18.
大型搜索系统对用户查询的快速响应尤为必要,同时在计算候选文档的特征相关性时,必须遵守严格的后端延迟约束。通过特征选择,提高了机器学习的效率。针对排序学习中快速特征选择的起点多为单一排序效果最好的特征的特点,首先提出了一种用层次聚类法生成特征选择起点的算法,并将该算法应用于已有的2种快速特征选择中。除此之外,还提出了一种充分利用聚类特征的新方法来处理特征选择。在2个标准数据集上的实验表明,该算法既可以在不影响精度的情况下获得较小的特征子集,也可以在中等子集上获得最佳的排序精度。 相似文献
19.
通过分簇算法减小网络振动效应,延长网络的寿命是移动对等网络的研究重点之一。在研究Kautz图及其特性的基础上,提出一种基于Kautz图的移动对等网络分簇算法。在算法中,定义地址空间树,使用Kautz串作为节点标识,并运用后根序和宽度优先算法遍历地址空间树等一系列技术生成簇。同时设计了相关机制管理和维护簇结构,保证结构一致性。理论证明和实验评估表明,该分簇算法能有效减小振动效应,延长网络寿命。 相似文献