共查询到19条相似文献,搜索用时 203 毫秒
1.
为了改善单一聚类算法的聚类性能,提出一种基于量子遗传算法的XML文档聚类集成解决方法。该方法首先利用KNN分类算法将XML文档划分成k个差异性的聚类成员;其次根据聚类成员的关系获得内联相似度矩阵,并通过多次分割、向下、向上、双向收缩的QR算法分解特征值对应的特征向量来实现矩阵的维数缩减;然后在映射空间上用量子遗传算法实现聚类集成,把每一个样本判别到最优的聚类类别中。这样减少了数据差异性对聚类结果的影响,提高了聚类质量。实验结果表明,在真实的数据集上,该聚类集成算法比其他聚类集成算法具有更好的效果。 相似文献
2.
基于混合并行遗传算法的文本聚类研究 总被引:2,自引:0,他引:2
针对传统K-Means聚类算法对初始聚类中心的选择敏感,易陷入局部最优解的问题,提出一种基于混合并行遗传算法的文本聚类方法。该方法首先将文档集合表示成向量空间模型,并在文档向量中随机选择初始聚类中心形成染色体,然后结合K-Means算法的高效性和并行遗传算法的全局优化能力,通过种群内的遗传、变异和种群间的并行进化、联姻,有效地避免了局部最优解的出现。实验表明该算法相对于K-Means算法、简单遗传算法等文本聚类方法具有更高的精确度和全局寻优能力。 相似文献
3.
4.
传统K-means算法对初始聚类中心的选取和样本的输入顺序非常敏感,容易陷入局部最优。针对上述问题,提出了一种基于遗传算法的K-means聚类算法GKA,将K-means算法的局部寻优能力与遗传算法的全局寻优能力相结合,通过多次选择、交叉、变异的遗传操作,最终得到最优的聚类数和初始质心集,克服了传统K-means算法的局部性和对初始聚类中心的敏感性。 相似文献
5.
6.
图像分割和对象提取是从图像处理到图像分析的关键步骤。经典的模糊C-均值聚类算法(FCMA)是将图像分割成C类的常用方法,但依赖于初始聚类中心的选择。该算法通常得到的是局部最优解而非全局最优解。遗传算法是一类全局优化搜索算法。通过将遗传算法(GA)与FCMA相结合,对彩色地图直接按红绿蓝(RGB)三色空间进行聚类,用遗传算法搜索全局最优解,有效地避免了模糊C-均值聚类算法收敛到局部最优的问题,并在此基础上实现了对彩色地图的分割,得到了比较满意的效果。 相似文献
7.
将集成学习方法应用到XML文档聚类中来改进传统聚类算法的不足。提出一种标签与路径相结合的XML文档向量模型,基于这个模型,首先对原始文档集进行多次抽样,在新文档集上进行K均值聚类,然后对得到的聚类中心集合进行层次聚类。在人工数据集和真实数据集上的实验表明,该算法在召回率和精确率上优于K均值算法,并且增强了其鲁棒性。 相似文献
8.
提出了一种基于XML文档聚类的XML近似查询算法。给出了基于语义的XML文档间距离的计算方法,结合该语义距离,提出了基于网格的八邻域聚类算法对XML数据库进行聚类划分,进而利用在聚类过程中得到的聚类中心对静态有序选择算法的近似查询评估阶段进行优化,使得不用对XML数据库进行完全遍历就能及时返回满足用户需要的查询结果。最后,在汽车外形智能化设计的实验中表明该算法有效地提高了静态有序选择算法的查询效率。 相似文献
9.
基于XML文档相似性的构件聚类分析 总被引:2,自引:2,他引:0
构件聚类时,提出了一种计算基于XML描述的构件问相似度的递归算法,能有效度量构件XML描述文档包含的结构和语义信息.构造文档相似矩阵,利用遗传算法将高维样本映射到二维平面上,使用k-means算法聚类,获得全局最优的构件聚类.最后,在构件库测试模型上进行实验,实验结果表明,基于XML相似度的构件聚类算法在构件查询实践中具有可行性和有效性. 相似文献
10.
11.
聚类算法单一迭代路径限制了参数优值的搜索。提出一种多路径高斯核模糊C均值聚类算法(MGKFCMs),MGKFCMs算法首先取核目标函数及模糊隶属度函数中的核函数为高斯核函数;然后利用梯度法得到聚类中心迭代公式,并基于该迭代公式和粒子群算法作聚类中心的并行参数迭代,在每一次聚类迭代时,选择聚类目标函数值小的路径作为参数迭代最终路径。对比分析了MGKFCMs算法的相关性质,通过仿真实验验证了所提算法的有效性。 相似文献
12.
13.
基于初始中心优化的遗传K-means聚类新算法 总被引:2,自引:2,他引:0
一个好的K-means聚类算法至少要满足两个要求:(1)能反映聚类的有效性,即所分类别数要与实际问题相符;(2)具有处理噪声数据的能力。传统的K-means算法是一种局部搜索算法,存在着对初始化敏感和容易陷入局部极值的缺点。针对此缺点,提出了一种优化初始中心的K-means算法,该算法选择相距最远的处于高密度区域的k个数据对象作为初始聚类中心。实验表明该算法不仅具有对初始数据的弱依赖性,而且具有收敛快,聚类质量高的特点。为体现聚类的有效性,获得更高精度的聚类结果,提出了将优化的K-means算法(PKM)和遗传算法相结合的混合算法(PGKM),该算法在提高紧凑度(类内距)和分离度(类间距)的同时自动搜索最佳聚类数k,对k个初始中心优化后再聚类,不断地循环迭代,得到满足终止条件的最优聚类。实验证明该算法具有更好的聚类质量和综合性能。 相似文献
14.
在处理大数据集聚类问题上,谱聚算法因存在占用存储空间大、时间复杂度高的缺陷而难以推广,针对此问题,提出采用多次分割、向上向下双向收缩的QR算法求得特征值对应的特征向量来实现降维,并在此基础上构造映射空间上的样本来实现量子遗传谱聚算法的聚类。该方法通过映射为后续的量子遗传谱聚算法聚类提供低维的输入,而量子遗传算法具有快速收敛到全局最优并且对初始化不敏感的特性,从而可以获得良好的聚类结果。实验结果显示,使用该算法的聚类比谱聚算法、K-means算法、NJW算法等单一方法具有更好的收敛性、稳定性和更高的全局最优。 相似文献
15.
16.
基于核自调整进行半监督聚类 总被引:2,自引:1,他引:1
半监督聚类是通过在无监督算法的基础上加入有限的背景知识来实现的。现有的基于核的半监督聚类算法对于核参数的设定仍需人工进行调节,其选择值会极大地影响最终的结果。通过将关联加入到聚类目标函数中,在聚类过程反复地优化高斯核参数,自动确定最佳RBF核,并将最佳核计算与SSKK算法结合起来得到SSKKOK算法。实验结果表明,该算法能在利用基于核半监督聚类算法功能的基础上自动设置有关的参数。 相似文献
17.
后向传播神经网络算法是一种经典的分类算法,但是通常该算法训练时间较长。针对这种不足,提出了一种基于核聚类的快速后向传播算法。利用核聚类将原始样本划分为多个簇,对每一个簇计算簇中心样本,利用所有的簇中心样本作为新训练集进行神经网络学习。在UCI标准数据集和说话人识别数据集上的仿真实验,充分说明了算法较传统后向传播算法具有明显的速度优势。 相似文献
18.
为了克服模糊C-均值(FCM)聚类算法易陷入局部极小值和对初始值敏感的缺点,提出了一种基于改进量子蚁群的模糊聚类算法。将量子计算原理和蚁群算法相结合来改进FCM算法。初期采用量子遗传算法生成信息素分布,后期利用蚁群算法的全局搜索性、并行计算性等特点避免聚类陷入局部最优解。实验证明该算法保证了种群的多样性,有较好的全局收敛性,克服了模糊C-均值聚类算法的不足,能有效解决未成熟收敛的问题,使聚类问题最终快速、有效地收敛到全局最优解。 相似文献
19.
提出一种密度敏感模糊核最大熵聚类算法.该算法首先通过核函数将原始非线性非高斯的数据集转化为核空间数据集,然后利用核函数的相似性抵消不属于该聚类的样本数据在聚类过程中对聚类中心求解的干扰,消除正则化系数对聚类结果的影响,进而抑制传统最大熵聚类算法的趋同性.最后通过引入相对密度项,解决因样本数据在特征空间的分布差异而导致的聚类中心求解偏差问题,从而提高聚类结果的准确性.实验部分,本文讨论了算法参数间的关系以及对聚类结果的影响.通过与传统模糊C均值聚类算法、核模糊C均值聚类算法、最大熵聚类算法、最大熵规范化权重核模糊C均值聚类算法以及其他两种改进最大熵聚类算法的聚类结果进行对比分析,结果表明本文提出的密度敏感模糊核最大熵聚类算法的聚类性能明显优于其他算法. 相似文献