首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
在传统的K-means聚类算法基础上,本文提出一种基于熵和均方差法综合赋权的Syn-K-means算法。引入综合权重提高聚类结果的类内相似度,从而提高聚类精度。算法中特征权重的计算基于概率论中数字特征的基本描述方法——均方差和信息论中信息特征的基本度量方法——熵;综合赋权系数的选择采用主观设定法求解。实验结果表明,Syn-K-means算法在聚类精度方面优于标准的K-means算法。  相似文献   

2.
图聚类是图挖掘研究领域目前的研究热点之一.现有基于非深度学习技术的多个中小规模图的聚类算法提取频繁子图并作为特征,主要存在所选特征无效或重要特征丢失的问题,影响了聚类的性能.因此,本文提出了一种基于混合特征选择的图聚类算法.首先提出了一种基于主成分分析原理(Principal Component Analysis, PCA)的评估函数,从图数据集中挖掘出区分特征子图,作为候选特征.其次,提出了一种分支定界技术,加速了区分子图的挖掘过程.接着,为了进一步提高聚类准确率,不失一般性地选择了一种流行的嵌入式特征选择算法,继续对候选特征集进行特性选择,并同时完成图聚类.最后,通过真实数据集上的实验验证了本文提出的基于混合特征选择的图聚类方法的有效性.  相似文献   

3.
基于信息熵的精确属性赋权K-means聚类算法   总被引:4,自引:0,他引:4  
为了进一步提高聚类的精确度,针对传统K-means算法的初始聚类中心产生方式和数据相似性判断依据,提出一种基于信息熵的精确属性赋权K-means聚类算法。首先利用熵值法对数据对象的属性赋权来修正对象间的欧氏距离,然后通过比较初聚类的赋权类别目标价值函数,选择高质量的初始聚类中心来进行更高精度和更加稳定的聚类,最后通过Matlab编程实现。实验证明该算法的聚类精确度和稳定性要明显高于传统K-means算法。  相似文献   

4.
张旭  郭晨 《计算机工程》2007,33(23):16-18
为了在聚类数不确定的情况下实现聚类分析,通过借鉴生物免疫系统中的克隆选择原理并结合聚类有效性分析,提出了一种基于克隆选择的快速动态聚类算法。该算法可以根据样本数据自动确定聚类数目及中心位置,克服了传统聚类算法容易陷入局部极小值、对初始值敏感的缺点。通过引入新算子及适当选取聚类的初始中心,使算法的收敛速度明显提高,仿真实验结果表明了本算法的有效性。  相似文献   

5.
一种有效的基于划分和层次的混合聚类算法   总被引:1,自引:0,他引:1  
曾志雄 《计算机应用》2007,27(7):1692-1694
在综合分析基于划分的K均值聚类算法和基于层次的凝聚聚类算法的基础上,借鉴各种混合聚类方法,提出了一种执行效率更高和聚类质量更好的分阶段混合聚类算法(HCAP)。给出HCAP的策略思想、算法描述及性能分析,基于二维数据空间的模拟样本数据的实验验证该算法的有效性和合理性,在某些方面应用性能优于原算法。  相似文献   

6.
一种基于特征加权的蚁群聚类新算法   总被引:3,自引:1,他引:2  
蚁群聚类算法作为一种群体智能的算法已经被证实可用于高维数据的聚类,能够快速有效地处理Web的海量、高维数据,但是传统的蚁群聚类算法并未考虑各维特征的贡献率,聚类的准确度有限。文中以优化聚类效果为目标,提出了一种基于特征加权的蚁群聚类新算法FWACCA,在新算法中考虑了各维特征对分类贡献的多少,合理地使用了Sigmoid概率转换函数和主客观结合的赋权法。实验结果表明此新算法可以有效减少聚类出错率,提高聚类的准确性。  相似文献   

7.
基于向量空间模型的文本聚类算法   总被引:15,自引:3,他引:12       下载免费PDF全文
文本聚类是聚类的一个重要研究分支,是聚类方法在文本处理领域的应用。该文探讨了基于向量空间模型的文本聚类方法,提出了一种文本聚类的改进算法——LP算法。同时,基于语料库的实际聚类效果,就维度确定、特征选择等方面提出优化方案。实验证明,LP算法有效地减少了聚类所消耗的时间,实用性和灵活性都较高。  相似文献   

8.
在数据流聚类时,冗余特征会影响数据的聚类质量,移除冗余特征以提高聚类质量就显得尤为重要.为解决此问题,提出一种基于特征选择的数据流聚类算法(DSCFC).该算法应用了特征排序、特征等级评定、探测冗余不重要的特征、移除冗余特征算法等.实验结果表明,DSCFC算法能探测出数据流中隐含的冗余特征并移除冗余特征,在对有冗余特征的数据流聚类时,比CluSteam算法更有效,聚类质量更好.  相似文献   

9.
基于遗传算法及聚类的基因表达数据特征选择   总被引:1,自引:0,他引:1  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象(如基因表达数据)的特征选择,一方面可以提高分类及聚类的精度和效率,另一方面可以找出富含信息的特征子集,如发现与疾病密切相关的重要基因。针对此问题,本文提出了一种新的面向基因表达数据的特征选择方法,在特征子集搜索上采用遗传算法进行随机搜索,在特征子集评价上采用聚类算法及聚类错误率作为学习算法及评价指标。实验结果表明,该算法可有效地找出具有较好可分离性的特征子集,从而实现降维并提高聚类及分类精度。  相似文献   

10.
实现对Web服务的自动聚类,是提高Web服务发现速度的有效方式之一。针对常用聚类算法在实现服务聚类时需要获取网内所有服务或通过服务训练集来发掘领域内服务特征,不适用于动态服务环境的问题,提出了服务能力的概念,并给出了服务能力描述及计算的方法。借助本体技术,提出了一种基于服务能力的聚类算法。无需先验知识或服务间相似度的比较,该算法可将服务能力及功能相似的服务聚类在一起。在此基础之上,提出了一种服务预检索算法。理论分析及仿真结果表明,聚类算法可有效地反映领域内服务基于功能的聚类特征,预检索算法可有效地滤除无关服务,提高服务检索效率。  相似文献   

11.
针对SMOTE方法对所有少数类样本进行过采样的缺陷,提出一种基于特征加权与聚类融合的过采样方法(WKMeans-SMOTE),由此进行不平衡数据分类。考虑到不同特征权重对聚类结果的影响程度不同,选择特征加权的聚类算法对原始数据集进行聚类,并多次改变初始簇中心生成不同的聚类结果;根据簇标签匹配方法将不同的聚类结果进行匹配,引进“聚类一致性系数”筛选出处于少数类边界的样本;对筛选出的少数类样本进行SMOTE过采样,并采用CART决策树方法作为基分类器,对新的少数类样本与所有的多数类样本进行训练。实验结果表明,与现有的SMOTE、Borderline-SMOTE和ADASYN等过采样方法相比,所提出的WKMeans-SMOTE方法在分类性能上有一定的提升。  相似文献   

12.
为解决传统可能性聚类算法(PCM)无法满足多视角学习场景聚类的实际问题,并进一步考虑到现有多视角聚类算法尚未重视的视角权重及视角内特征权重优化问题,本文提出一种新的具备最佳视角及最优特征划分能力的多视角模糊双加权可能性聚类算法(MV-FDW-PCM)。该算法将基于传统的PCM算法,给出了详细的多视角聚类学习框架使得PCM算法具备多视角聚类能力,进而通过引入视角间模糊加权机制及视角内属性模糊加权机制解决视角间权重及视角内特征权重优化问题。实验结果表明,所提的MV-FDW-PCM算法在面对多视角聚类问题时较以往算法具有更佳的聚类效果。  相似文献   

13.
位置加权文本聚类算法   总被引:2,自引:2,他引:0  
文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。本文针对特征词在文档中的不同位置对文档的贡献大小不同,提出了基于特征词的位置加权文本聚类改进算法——TCABPW。通过选取反映文档主题的前L个高权值的特征项构造新的文本特征向量,采用层次聚类和K-means文本聚类相结合的改进算法实现文本聚类。实验结果表明,提出的改进算法在不影响聚类质量的情况下大大地降低了文本聚类的维度,在稳定性和纯度上都有显著提高,获得了较好的聚类效果。  相似文献   

14.
该文利用领域本体对产品评论文本中的评价对象进行抽取和整合,在此基础上,建立产品性能的非完备信息系统,将特征的情感倾向寓于特征的权重计算之中。对非完备信息系统,给出了基于差别矩阵的启发式特征约简方法,通过特征降维处理,达到了减少特征的冗余度和数据稀疏性的目的。对降维后的非完备信息系统采用K-Means聚类算法,实现了评价对象情感聚类。为了验证该文提出方法的有效性,在真实汽车评论文本数据上进行实验, 实验结果表明,在对特征进行一定程度的降维后,仍表现出较好的聚类效果。  相似文献   

15.
Among fuzzy clustering methods, fuzzy c-means (FCM) is the most recognized algorithm. In this algorithm, it is assumed that all the features are of equal importance. In real applications, however, the importance of the features are different and there exist some features that are more important than the others. These important features should basically have more effects than the other features in the forming of optimal clusters. The basic FCM algorithm does not support this idea. Also, the FCM algorithm suffers from another problem; the algorithm is very sensitive to initialization, whereas a bad initialization leads to a poor local optima. Some improved versions of FCM have been proposed in the literature, each of which has somehow mitigated the first problem or the second one. In this paper, motivated by these weaknesses of the FCM, the goal is to solve the two problems at the same time. In doing so, an automatic local feature weighting scheme is proposed to properly weight the features of each clusters. And, a cluster weighting process is performed to mitigate the initialization sensitivity of the FCM. Feature weighting and cluster weighting are performed simultaneously and automatically during the clustering process resulting in high quality clusters, regardless of the initial centers. Extensive experiments conducted on a synthetic dataset and 16 real world datasets indicate that the proposed algorithm outperforms the state-of-the-arts algorithms. The convergence proof of the proposed algorithm is also provided.  相似文献   

16.
K-means is one of the most popular and widespread partitioning clustering algorithms due to its superior scalability and efficiency. Typically, the K-means algorithm treats all features fairly and sets weights of all features equally when evaluating dissimilarity. However, a meaningful clustering phenomenon often occurs in a subspace defined by a specific subset of all features. To address this issue, this paper proposes a novel feature weight self-adjustment (FWSA) mechanism embedded into K-means in order to improve the clustering quality of K-means. In the FWSA mechanism, finding feature weights is modeled as an optimization problem to simultaneously minimize the separations within clusters and maximize the separations between clusters. With this objective, the adjustment margin of a feature weight can be derived based on the importance of the feature to the clustering quality. At each iteration in K-means, all feature weights are adaptively updated by adding their respective adjustment margins. A number of synthetic and real data are experimented on to show the benefits of the proposed FWAS mechanism. In addition, when compared to a recent similar feature weighting work, the proposed mechanism illustrates several advantages in both the theoretical and experimental results.  相似文献   

17.
针对已有的特征权重自调节软子空间(SC-FWSA)聚类算法存在对噪声敏感的问题,基于一种非欧氏距离,提出一种鲁棒的特征权重自调节软子空间(RSC-FWSA)聚类算法。RSC-FWSA在迭代过程中自适应地为数据生成一个权函数,通过计算每一类数据的加权平均来计算聚类中心,这种"加权平均"使得聚类中心的估计对噪声相对不敏感,从而可以提升算法对带噪声数据和复杂结构数据的聚类精度。人工数据和真实数据上的对比性实验,验证了RSC-FWSA算法的有效性。特别是人工带噪声数据和3个真实数据:Wine, Zoo以及Breastcancer上的实验结果表明,RSC-FWSA可以显著提升原对应算法的聚类精度。RSC-FWSA具有的强鲁棒性使得该算法适用于高维带噪声和复杂结构数据的聚类问题。  相似文献   

18.
基于多尺度LBP金字塔特征的分类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
为有效解决旋转变化、光照变化和尺度变化等图像的分类问题,提出一种基于多尺度局部二元模式(LBP)金字塔特征的图像分类算法。通过多尺度LBP金字塔提取各尺度的图像纹理特征,建立图像的多尺度LBP金字塔直方图,并将其作为图像特征向量,采用K-means方法对该特征向量进行降维,以用于图像分类。同时,针对传统二进制权值分布方法对噪声敏感的缺点,提出一种多端权值分布方法。实验结果表明,多尺度LBP金字塔方法具有较好的可鉴别性及图像描述能力,而多端权值分布法也能提高图像的分类精度。  相似文献   

19.
刘强  夏士雄  周勇  刘兵 《计算机应用研究》2011,28(12):4437-4439
模糊聚类是一种应用广泛的数据分析和建模的无监督方法,但该算法受离群点影响较大,并且没有考虑样本数据中各维特征对聚类贡献程度的不同.针对这两个问题,提出了基于两种加权方式的聚类算法,该算法定义了一种新的样本加权的概念,减弱了离群点对聚类的干扰,同时为数据样本的每一维特征赋予一个权值,使聚类更加准确.仿真实验结果验证了该算...  相似文献   

20.
In big data era, more and more data are collected from multiple views, each of which reflect distinct perspectives of the data. Many multi-view data are accompanied by incompatible views and high dimension, both of which bring challenges for multi-view clustering. This paper proposes a strategy of simultaneous weighting on view and feature to discriminate their importance. Each feature of multi-view data is given bi-level weights to express its importance in feature level and view level, respectively. Furthermore, we implements the proposed weighting method in the classical k-means algorithm to conduct multi-view clustering task. An efficient gradient-based optimization algorithm is embedded into k-means algorithm to compute the bi-level weights automatically. Also, the convergence of the proposed weight updating method is proved by theoretical analysis. In experimental evaluation, synthetic datasets with varied noise and missing-value are created to investigate the robustness of the proposed approach. Then, the proposed approach is also compared with five state-of-the-art algorithms on three real-world datasets. The experiments show that the proposed method compares very favourably against the other methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号