首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于新的相异度量的模糊K-Modes聚类算法   总被引:3,自引:2,他引:1  
白亮  曹付元  梁吉业 《计算机工程》2009,35(16):192-194
传统的模糊K-Modes聚类算法采用简单匹配方法度量对象与Mode之间的相异程度,没有充分考虑Mode对类的代表程度,容易造成信息的丢失,弱化了类内的相似性。针对上述问题,通过对象对类的隶属度反映Mode对类的代表程度,提出一种新的相异度量,并将它应用于传统的模糊K—Modes聚类算法。与传统的K—Modes和模糊K-Modes聚类算法相比,该相异度量是有效的。  相似文献   

2.
首先总结了链接挖掘中基于属性—链接聚类算法的研究现状;然后把它大体分为三类,对每一类中具有代表性的算法进行了详细介绍、分析和评价;最后指出了该领域进一步的研究方向。  相似文献   

3.
基于聚类的连续值属性最佳离散化算法   总被引:4,自引:0,他引:4  
在机器学习和KDD研究中,大多数算法都以离散值为处理对象的,然而,在现实世界数据库中,存在着大量的连续值属性,因此,常常需要对地值属性进行离散化,本文提出一种基于聚类的 续值属最佳离散化算法。  相似文献   

4.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

5.
针对传统协同过滤推荐算法通常存在的数据稀疏和冷启动问题,根据用户间的信任关系,提出基于模糊C均值聚类的综合信任推荐算法.采用评分数据和信任数据计算用户间的隐式信任值和显式信任值,利用显隐式信任得到综合直接信任值,基于信任的传递特性获得Jaccard全局信任值,最终通过动态结合综合直接信任与Jaccard全局信任获取综合...  相似文献   

6.
一种基于改进PSO的K—means优化聚类算法   总被引:1,自引:0,他引:1  
针对传统的K—means算法对初始聚类中心的选取敏感、容易收敛到局部最优的缺点,提出一种基于改进粒子群优化算法(PSO)的K—means优化聚类算法。该算法利用PSO算法强大的全局搜索能力对初始聚类中心的选取进行优化:通过动态调整惯性权重等参数增强PSO算法的性能;利用群体适应度方差决定算法中前部分PSO算法和后部分K—means算法的转换时机;设置变量实时监控各个粒子和粒子群的最优值变化情况,及时地对出现早熟收敛的粒子进行变异操作,从而为K—means算法搜索到全局最优的初始聚类中心,使聚类结果不受初始聚类中心影响,易于获得全局最优解。实验结果表明文中提出的改进算法与传统聚类算法相比具有更高的聚类正确率、更好的聚类质量及全局搜索能力。  相似文献   

7.
使用遗传算法实现K—means聚类算法的K值选择   总被引:6,自引:0,他引:6  
杨芳  湛燕 《微机发展》2003,13(1):25-26,29
针对无导师聚类K-均值算法中K值的选取问题,提出了使用遗传算法(缩写为GA)优化K值参数的方法。通过对UCI机器学习数据库中7类数据的实验,表明本方法是比较有效的。  相似文献   

8.
对于具有海量信息的个性化推荐问题。K—means聚类算法的传统实现方式已不能快速准确地满足要求。基于目前最为流行的开源云计算平台Hadoop及分布式计算框架MapReduce,实现K—means聚类算法的并行化。给出该算法的具体实现,实验表明能够较好地解决时间瓶颈问题。  相似文献   

9.
一种基于网格的引力聚类算法   总被引:1,自引:0,他引:1  
将万有引力和牛顿第二运动定律的思想引入到聚类分析中,提出了一种基于网格的引力聚类算法GCABG.该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤"噪声"数据.实验结果表明GCABG可以产生高质量的聚类结果.  相似文献   

10.
现有的针对分类数据的算法需要多次扫描数据库,对于数据开采经常处理的大容量数据,多遍I/O操作是一项沉重的系统开销.CACD(clustering algorithm for categoricaldata)是针对分类属性数据的聚类算法,该算法采用压缩技术缩小需要处理的数据量以提高效率,同时算法提出了一种新的基于压缩数据结构的标准用于衡量分类数据的相似度.CACD只需扫描数据库一遍,算法理论分析和实验分析都表明该算法比同类针对分类数据的聚类算法效率要高,并且压缩技术对聚类结果的质量影响不大.  相似文献   

11.
Michael K.Ng等人提出了新K-Modes聚类算法,它采用基于相对频率的启发式相异度度量方法,有效地提高了聚类精度,但不足的是在计算各类的属性分类值频率时假定类中样本对聚类的贡献相同。为了考虑类中样本对类中心的不同影响,提出一种粗糙K-Modes算法,通过粗糙集的上、下近似度量数据样本在类内的重要性程度,不仅可以获得比新K-Modes算法更好的聚类效果,而且可以在保证聚类效果的基础上降低白亮等人提出的基于粗糙集改进的K-Modes算法的计算复杂度。对几个UCI的数据集的测试实验结果显示出新算法的优良性能。  相似文献   

12.
Due to data sparseness and attribute redundancy in high-dimensional data, clusters of objects often exist in subspaces rather than in the entire space. To effectively address this issue, this paper presents a new optimization algorithm for clustering high-dimensional categorical data, which is an extension of the k-modes clustering algorithm. In the proposed algorithm, a novel weighting technique for categorical data is developed to calculate two weights for each attribute (or dimension) in each cluster and use the weight values to identify the subsets of important attributes that categorize different clusters. The convergence of the algorithm under an optimization framework is proved. The performance and scalability of the algorithm is evaluated experimentally on both synthetic and real data sets. The experimental studies show that the proposed algorithm is effective in clustering categorical data sets and also scalable to large data sets owning to its linear time complexity with respect to the number of data objects, attributes or clusters.  相似文献   

13.
在分析战术互联网特点的基础上,提出了一种基于信任的k跳复合度量分簇算法TBKCM。综合考虑节点行政级别、节点信任度、剩余电池电量、节点相对移动性、节点ID来选举簇首,提高了网络的安全性和稳定性。将一跳簇扩展为k跳,增强了网络的可扩展性。采用按需触发簇维护策略,能够及时有效地维护网络拓扑,同时减少控制开销。仿真实验表明,TBKCM方案产生的簇有适度且统一的簇尺寸,与其他方案相比,具有更长的簇首持续时间,簇结构更加稳定。  相似文献   

14.
战术互联网同质层基于信任评估的安全分簇算法   总被引:1,自引:0,他引:1  
张晗  万明杰  王寒凝 《计算机应用》2007,27(10):2464-2469
提出一种适用于构建战术互联网同质网层分级结构的安全分簇算法(SCABTE),给出簇形成和簇维护的详细设计策略。最后从入侵节点的角度分析其安全性,并用NS-2构建了战术互联网仿真环境在节点传输距离、节点移动速度、网络规模变化条件下验证算法的可用性。  相似文献   

15.
针对现有的信任模型对节点行为改变的动态适应能力和对反馈信息的有效聚合能力支持不足,提出了一种基于时间帧信任值的计算方法,使用时间帧标示出经验和推荐时间特征,引入近期信任、长期信任、累积滥用信任和反馈可信度4个参数来计算节点信任度,并通过反馈控制机制动态调节上述参数,提高了信任模型的动态适应能力。与以往的信任值的计算方法相比,该方法具有更好的动态适应能力和反馈信息有效聚合能力,能够有效处理动态恶意节点策略性的行为改变和不诚实反馈对系统的攻击。  相似文献   

16.
传统推荐信任模型中单纯采用概率平均的方法得到推荐信任值,这种方法效率较低,而且难以抵抗联合欺诈行为。基于蚁群算法给出了一个寻找信任路径的算法,该算法通过多次循环选出多条较优的独立信任路径,在一定程度上可有效防止联合欺诈行为,并通过实验证明了它的有效性,适应现实的复杂网络环境。  相似文献   

17.
基于属性值信息熵的KNN改进算法   总被引:3,自引:0,他引:3       下载免费PDF全文
为了克服传统KNN算法,距离加权-KNN算法在距离定义及投票方式上的不足,提出了一种基于属性值对类别重要性的改进算法Entropy-KNN。首先定义两个样本间的距离为相同属性值的平均信息熵,此距离可通过重要属性值有效度量样本之间的相似程度,其次算法Entropy-KNN根据上述定义的距离选取与待测试样本距离最小的K个近邻,最后根据各类近邻样本点的平均距离及个数判断待测试样本的类别。在蘑菇数据集上的实验表明,Entropy-KNN算法的分类准确率高于传统KNN算法和距离加权KNN算法。  相似文献   

18.
针对现有的 Neural-Gas 算法进行改进,提出了一种新的聚类算法。改进之处在于:一个点对一个簇的质心的影响程度取决于该点到其他更近的簇的质心的距离值,而不仅仅是点与簇质心间距离值按大小排列次序的序号。在几个数据集上的实验结果表明,该算法在熵、纯度、F1值、rand index、规范化互信息 NMI 等五个指标上优于 K-means 算法、Neural-Gas 算法等其他几种聚类算法,该算法是一种较好较快的算法。  相似文献   

19.
针对影响k-means聚类效果的聚类数目和初始中心点两大因素,提出了基于双重遗传的kmeans算法。它用外层遗传算法控制聚类数目,用内层遗传算法控制聚类的初始中心点,并采用类间距离和类内距离以及二者之间的比值来评价聚类结果的好坏,在算法终止后,可同时求得较优的聚类数目和某聚类数目下的较优初始中心点。此外,根据内外层遗传算法的特殊性,采用不同的编码策略适应算法需求,为保留优质个体,采用精英个体保留策略。通过UCI数据集测试实例证明此算法有很好的实用性,对数据挖掘技术有一定参考价值。  相似文献   

20.
Categorical data clustering is a difficult and challenging task due to the special characteristic of categorical attributes: no natural order. Thus, this study aims to propose a two-stage method named partition-and-merge based fuzzy genetic clustering algorithm (PM-FGCA) for categorical data. The proposed PM-FGCA uses a fuzzy genetic clustering algorithm to partition the dataset into a maximum number of clusters in the first stage. Then, the merge stage is designed to select two clusters among the clusters that generated in the first stage based on its inter-cluster distances and merge two selected clusters to one cluster. This procedure is repeated until the number of clusters equals to the predetermined number of clusters. Thereafter, some particular instances in each cluster are considered to be re-assigned to other clusters based on the intra-cluster distances. The proposed PM-FGCA is implemented on ten categorical datasets from UCI machine learning repository. In order to evaluate the clustering performance, the proposed PM-FGCA is compared with some existing methods such as k-modes algorithm, fuzzy k-modes algorithm, genetic fuzzy k-modes algorithm, and non-dominated sorting genetic algorithm using fuzzy membership chromosomes. Adjusted Ranked Index (ARI), Normalized Mutual Information (NMI), and Davies–Bouldin (DB) index are selected as three clustering validation indices which are represented to both external index (i.e., ARI and NMI) and internal index (i.e., DB). Consequently, the experimental result shows that the proposed PM-FGCA outperforms the benchmark methods in terms of the tested indices.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号