首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
基于稀疏差异度的聚类方法在信息分类中的应用   总被引:1,自引:1,他引:1  
针对文本信息聚类中的高属性维稀疏数据聚类问题,采用计算对象间稀疏特征差异度来度量文本对象之间的相关度,结合最小生成树的方法来进行聚类分析,提出一种基于稀疏特征差异度的聚类方法,通过实例表明,该算法对于多关键字匹配的文本信息分类十分有效,并可根据关键字的重要程度进行加权计算,使聚类更加符合实际情况。该算法将在高维稀疏数据挖掘中有着重要应用。  相似文献   

2.
张喆  白琳 《计算机应用》2007,27(1):128-131
将免疫克隆策略用于网络结构的聚类中,能够得到克隆网络对数据进行合理的聚类分析。采用克隆网络对入侵检测数据进行学习,即用一个小规模网络来表示海量数据,完成数据的压缩表示。再利用图论中的最小生成树对克隆网络的结构进行聚类分析,从而获得描述正常行为和异常行为的数据特征,实现合理的聚类。该算法可实现对大规模无标识原始数据的入侵检测,区分正常和异常行为,并能检测到未知攻击。在KDD CUP99数据集中进行了对比仿真实验,实验结果表明:相对于以前的算法,该算法较大地提高了对已知攻击和未知攻击的入侵检测率,并降低了误警率。  相似文献   

3.
在生命科学中,需要对物种及基因进行分类,以获得对种群固有结构的认识。利用数据聚类方法,有效地辨别/识别基因表示数据的模式,对它们进行分类。将特征相似性大的归为一类,特征相异性大的归为不同类。这对于研究基因的结构、功能、以及不同种类基因之间的关系都具有重要意义。利用图论的方法对分子生物学中基因表示数据进行初始聚类,然后再结合别的算法,如K-近邻自学习聚类算法或基于中心点的自学习聚类算法,对其进一步求精。对于某种聚类判别准则,能够产生全局最优簇。最后对算法进行了分析和讨论,并用模拟数据进行了实验验证。  相似文献   

4.
最小生成树数据描述( MSTCD)在刻画高维空间样本点分布时,将所有图形的边作为新增虚拟样本以提供目标类样本分布描述,这种描述存在分支多、覆盖模型复杂的问题.针对该问题,依据特征空间中同类样本分布的连续性规律,文中提出基于稀疏最小生成树覆盖模型的一类分类算法.该方法首先构建目标类数据集的稀疏k近邻图表示,通过递归图分割...  相似文献   

5.
蓝欢玉 《信息与电脑》2023,(14):120-122
采用传统不平衡数据集聚类算法直接对数据集编码树进行构建,而未对数据集密度特征进行提取,造成传统算法数据聚类效果差,因此提出了基于最小生成树的不平衡数据集聚类算法。先利用数据区域密度的敏感性,提取数据密度特征,再利用提取的数据集密度特征构建编码树,并计算不平衡聚类状态下的数据集,最后基于最小生成树实现不平衡数据集聚类。设计对比实验,实验结果表明该研究算法聚类效果最好,具有研究价值。  相似文献   

6.
基于稀疏差异度的聚类方法在信息分类中的应用   总被引:2,自引:0,他引:2  
尹松  周永权  李陶深 《微机发展》2006,16(1):117-119
针对文本信息聚类中的高属性维稀疏数据聚类问题,采用计算对象间稀疏特征差异度来度量文本对象之间的相关度,结合最小生成树的方法来进行聚类分析,提出一种基于稀疏特征差异度的聚类方法。通过实例表明,该算法对于多关键字匹配的文本信息分类十分有效,并可根据关键字的重要程度进行加权计算,使聚类更加符合实际情况。该算法将在高维稀疏数据挖掘中有着重要应用。  相似文献   

7.
针对协同过滤存在的数据稀疏性问题,提出了融合多源信息聚类和IRC-RBM的混合推荐算法。首先以用户信任度和项目时间权重作为聚类依据,利用最小生成树的K-means聚类算法对用户进行聚类分析,生成K个相似用户集合,在聚类分析的基础上进行评分预测;最后通过线性加权的方式,把聚类后评分矩阵和IRC-RBM模型生成的评分矩阵进行加权融合,用Top-N进行推荐。实验结果表明,相比较传统的推荐算法,该混合算法在准确率上有了显著的提升。  相似文献   

8.
为得到好的聚类效果,需要挑选适合数据集簇结构的聚类算法.文中提出基于网格最小生成树的聚类算法选择方法,为给定数据集自动选择适合的聚类算法.该方法首先在数据集上构建出网格最小生成树,由树的数目确定数据集的潜在簇结构,然后为数据集选择适合所发现簇结构的聚类算法.实验结果表明该方法较有效,能为给定数据集找出适合其潜在簇结构的聚类算法.  相似文献   

9.
为了更加直观地表现建筑形态,提出基于最小生成树的建筑模型数字化重构方法。利用地球坐标系表示采集到的建筑信息,将射线向量引入到地球平面中,去除与平面没有关联的数据,降低数据维度;采用K-means算法确定聚类中心,以相似性为依据完成分类,提高数据的有序性;经过几何和投影变换,令重构后的模型满足人眼视觉需求;建立建筑布局图,确定节点和边集合,计算两个节点间的欧氏距离,对所有边赋予权重,权值最小的边即为最小生成树;将最小生成树的寻优过程转换为建筑模型重构过程,选用Kruskal搜索算法设置初始节点和初始边,设定迭代停止条件,确保建筑模型结构被完全搜索到,实现建筑模型数字化重构。仿真结果表明,所提方法能够提高建筑数据处理效率,重构后建筑模型与实际建筑物的相似度较高。  相似文献   

10.
依针对MC/DC最4,N试用例集生成效率的问题,依据MC/DC准则,以条件判定组合的复杂逻辑关系为研究对象,采用将原始布尔表达式转化为语法树,再将语法树转化为图,分析图中节点对判定结果的影响的方法,研究了基于图快速生成最小测试用例集的算法.最后结合实倒对该算法进行了验证,并与其他算法进行了比较,结果表明该算法在手动和自动生成最小测试用例集时具有实用性和优越性.  相似文献   

11.
张雷  李人厚 《控制与决策》2007,22(4):469-472
提出一种基于免疫原理的动态聚类算法,它能在噪声环境下得到任意形状的聚类。并能有效地实现动态聚类操作.算法包括3个步骤:首先基于生物免疫机制得到一个反映当前数据分布特征的抗体集合;然后使用最小生成树方法得到聚类的初始结构;最后针对数据库的更新设计了动态聚类算法.仿真结果表明了该算法实现动态聚类的有效性.  相似文献   

12.
Many clustering approaches have been proposed in the literature, but most of them are vulnerable to the different cluster sizes, shapes and densities. In this paper, we present a graph-theoretical clustering method which is robust to the difference. Based on the graph composed of two rounds of minimum spanning trees (MST), the proposed method (2-MSTClus) classifies cluster problems into two groups, i.e. separated cluster problems and touching cluster problems, and identifies the two groups of cluster problems automatically. It contains two clustering algorithms which deal with separated clusters and touching clusters in two phases, respectively. In the first phase, two round minimum spanning trees are employed to construct a graph and detect separated clusters which cover distance separated and density separated clusters. In the second phase, touching clusters, which are subgroups produced in the first phase, can be partitioned by comparing cuts, respectively, on the two round minimum spanning trees. The proposed method is robust to the varied cluster sizes, shapes and densities, and can discover the number of clusters. Experimental results on synthetic and real datasets demonstrate the performance of the proposed method.  相似文献   

13.
Due to their ability to detect clusters with irregular boundaries, minimum spanning tree-based clustering algorithms have been widely used in practice. However, in such clustering algorithms, the search for nearest neighbor in the construction of minimum spanning trees is the main source of computation and the standard solutions take O(N^{2}) time. In this paper, we present a fast minimum spanning tree-inspired clustering algorithm, which, by using an efficient implementation of the cut and the cycle property of the minimum spanning trees, can have much better performance than O(N^{2}).  相似文献   

14.
We provide a new heuristic method approach to search for degree-balanced and small weight routing spanning trees in a network. The method is a modification of Kruskal’s minimum spanning tree search algorithm and is based on a distributed search by hierarchical clusters. It provides spanning trees with a lower maximum weighted degree, a bigger diameter, and can be used for balanced energy consumption routing in wireless sensor networks (WSN’s). The method can be naturally implemented in parallel or as a simple locally distributed algorithm. Simulations for a realistic case scenario WSN are done based on the transmission energy matrix. The simulation results show that the proposed approach can extend the functional lifetime of a WSN in terms of sensor transmission energy by 3–4 times. We also show that the results can be further improved by using a preliminary clustering of the input network.  相似文献   

15.
李俊林  符红光 《计算机应用》2011,31(10):2774-2777
为了识别出可能具有诊断力的特征基因,常常使用聚类的方法对基因表达数据进行分析,而仿分子动理学聚类法通过仿效分子间的作用力机制能达到对数据聚类的目的。仿分子动理学聚类技术不需要预设簇个数,且可用于估计数据中的簇个数。该方法被应用于基因表达数据,结合相关指标用以估计数据中存在的簇个数和发现可能具有诊断力的特征基因。实验与分析结果显示了仿分子动理学聚类技术具有良好的知识挖掘能力。  相似文献   

16.
In recent year, the problem of clustering in microarray data has been gaining significant attention. However most of the clustering methods attempt to find the group of genes where the number of cluster is known a priori. This fact motivated us to develop a new real-coded improved differential evolution based automatic fuzzy clustering algorithm which automatically evolves the number of clusters as well as the proper partitioning of a gene expression data set. To improve the result further, the clustering method is integrated with a support vector machine, a well-known technique for supervised learning. A fraction of the gene expression data points selected from different clusters based on their proximity to the respective centers, is used for training the SVM. The clustering assignments of the remaining gene expression data points are thereafter determined using the trained classifier. The performance of the proposed clustering technique has been demonstrated on five gene expression data sets by comparing it with the differential evolution based automatic fuzzy clustering, variable length genetic algorithm based fuzzy clustering and well known Fuzzy C-Means algorithm. Statistical significance test has been carried out to establish the statistical superiority of the proposed clustering approach. Biological significance test has also been carried out using a web based gene annotation tool to show that the proposed method is able to produce biologically relevant clusters of genes. The processed data sets and the matlab version of the software are available at http://bio.icm.edu.pl/~darman/IDEAFC-SVM/.  相似文献   

17.
聚类是一种常用的基因表达数据处理手段,然而它又是主观的,如何选择符合数据内在分布的聚类算法成为目前急待解决的问题.根据经验,当选择最佳簇数k后,采用合理的聚类算法对目标数据重复聚类时,结果稳定性较好.因此提出一种基于稳定性的聚类算法选择.该方法将聚类结果的簇间分离度、簇内紧致度和聚类结果稳定性三者结合起来.在验证和应用三组数据时发现,比传统的评估方法,基于稳定性的聚类算法选择更客观、更可靠.  相似文献   

18.
聚类中心初始化的新方法   总被引:4,自引:1,他引:3  
k-均值聚类算法易受初始聚类中心的影响而陷入局部最优解.现有聚类中心初始化方法尚未得到广泛认可.本文依据每个类内至少有一个数据稠密区,且处于不同类的数据稠密区比处于同一类的数据稠密区相距更远的假设,在数据集合上构造一棵最小支撑树,应用根树原理在其上搜索数据稠密区并估计其密度,从中选出密度大且足够分离的数据稠密区,以其内的点作为初始聚类中心,得到了一个聚类中心初始化的新方法.将此方法与现有的方法进行比较,仿真实验表明,本文方法性能更优越.  相似文献   

19.
聚类分析中类数估计方法的实验比较   总被引:4,自引:0,他引:4       下载免费PDF全文
在基因表达数据的探索性聚类分析中,聚类个数的确定是决定聚类质量的关键因素。许多聚类有效性评价指标和方法可用于PAM聚类算法。该文讨论适合于PAM算法的7种常用评价指标和方法,采用4种不同聚类结构特征的基因表达数据对它们的性能进行实验比较。结果表明,系统演化方法和稳定性方法估计聚类个数的性能最好,正确率分别为100%与90%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号