首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 262 毫秒
1.
最大似然法是目前较准确的一种进化树构建方法,但是其时间复杂度非常高.在实际应用中,用分治策略实现最大似然法的Quartet Puzzling(QP)得到了人们的关注.它首先估计Quartet拓扑结构集合Q,然后利用重组技术将Q中的信息合并到一起构成一个包含所有序列的进化树.研究表明,QP的准确性不像人们所期望的那样高.如何快速有效地将Q所包含的信息融合在一起仍然是QP所面-临的一个问题.为了提高QP,结合邻接法提出一种新的进化树构建方法QPNJ.理论上,QPNJ与QP具有相同的时间复杂度.通过模拟实验将QPNJ与QP以及目前流行的进化树构建方法进行了比较.结果表明,QPNJ比QP和邻接法更准确,并且其性能不依赖于模型树的结构,从而证明了QPNJ的有效性.  相似文献   

2.
对分类属性数据进行处理时,现有的聚类算法一般都通过距离函数将原始数据转换为表示两两距离的距离矩阵,然后再根据距离矩阵进行聚类,聚类结果很大程度上依赖于距离函数。针对上述问题,提出一种基于最大似然原理的分类属性数据分层聚类算法,称为HAC_ML算法。HAC_ML算法优点在于直接处理分类属性数据,不依赖于距离函数,并且克服了分层聚类不能回溯的缺点。在UCI数据集上的测试结果表明与经典的ROCK算法和K-Modes算法相比,HAC_ML算法是一种有效地处理分类属性数据的分层聚类算法。  相似文献   

3.
朱杰  陈黎飞 《计算机应用》2017,37(4):1026-1031
针对类属型数据聚类中对象间距离函数定义的困难问题,提出一种基于贝叶斯概率估计的类属数据聚类算法。首先,提出一种属性加权的概率模型,在这个模型中每个类属属性被赋予一个反映其重要性的权重;其次,经过贝叶斯公式的变换,定义了基于最大似然估计的聚类优化目标函数,并提出了一种基于划分的聚类算法,该算法不再依赖于对象间的距离,而是根据对象与数据集划分间的加权似然进行聚类;第三,推导了计算属性权重的表达式,得出了类属型属性权重与其符号分布的信息熵成反比的结论。在实际数据和合成数据集上进行了实验,结果表明,与基于距离的现有聚类算法相比,所提算法提高了聚类精度,特别是在生物信息学数据上取得了5%~48%的提升幅度,并可以获得有实际意义的属性加权结果。  相似文献   

4.
K-均值聚类算法(K-means)是基于划分的聚类算法中的典型算法,针对K-means算法初始聚类中心存在对K依赖的缺陷,提出一种新的选取K-means算法初始聚类中心的方法,该方法提高聚类结果的有效性和稳定性;还提出一种极值选择法,将最大距离法和最小距离法相结合,进一步提高初始聚类中心选择的准确性。  相似文献   

5.
王宏杰  师彦文 《计算机科学》2017,44(Z11):457-459, 502
为了提高传统K-Means聚类算法的聚类准确性,提出一种结合初始中心优化和特征加权的改进K-Means聚类算法。首先,根据样本特征对聚类的贡献程度获得初始特征权重,构建一种加权距离度量。其次,利用提出的初始聚类中心选择方法获得k个初始聚类中心,并结合初始特征权重进行初步聚类。然后,根据聚类精度来调整特征权重并再次执行聚类过程。重复执行上述过程直到聚类精度不再变化,获得最终的聚类结果。在UCI数据库上的实验结果表明,与现有相关K-Means聚类算法相比,该算法具有较高的聚类准确性。  相似文献   

6.
针对传统的聚类算法对初始聚类中心敏感、只能对单一属性聚类且聚类效果有时欠佳等不足,提出了一种能处理数值属性和分类属性的Gk-prototypes聚类算法。在经典的k-prototypes聚类算法的基础上,利用去模糊相似矩阵来构造粗粒子集,结合粒计算和最大最小距离法确定初始聚类中心,并改进了目标函数。实验结果和理论分析表明,Gk-prototypes聚类算法与其他基于k-prototypes的改进算法相比,聚类更准确,有效性更好,鲁棒性更强。  相似文献   

7.
针对传统的聚类算法K-means对初始中心点的选择非常依赖,容易产生局部最优而非全局最优的聚类结果,同时难以满足人们对海量数据进行处理的需求等缺陷,提出了一种基于MapReduce的改进K-means聚类算法。该算法结合系统抽样方法得到具有代表性的样本集来代替海量数据集;采用密度法和最大最小距离法得到优化的初始聚类中心点;再利用Canopy算法得到粗略的聚类以降低运算的规模;最后用顺序组合MapReduce编程模型的思想实现了算法的并行化扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场景;文中对该改进算法和传统聚类算法进行了比较,比较结果证明其性能优于后者;这表明该改进算法降低了对初始聚类中心的依赖,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间,而且在处理海量数据时表现出较大的性能优势。  相似文献   

8.
对分别采用欧氏距离和网络距离作为相似性测度的聚类方法进行分析,并从空间网络中对象间着手,提出一种具有方向特点的网络对象聚类算法.算法利用空间网络的邻接关系,将两种距离结合起来作为聚类的相似性测度以提高聚类的精度.算法分析和实验证明,该算法的聚类效果优于单一度量的聚类方法.  相似文献   

9.
在周界入侵检测中,DV-Distance定位算法得到的距离值误差较大。为此,对该算法进行改进,提出一种适用于带状无线传感器网络(WSN)的节点定位算法(IDV-Distance)。利用RSSI方法测得累计跳距,根据带状WSN的拓扑特性对其进行修正。采用极大似然法初步估算节点位置,并通过最速下降算法提高节点定位精度。实验结果表明,与经典DV-Distance算法及其2种改进算法相比,IDV-Distance算法的定位精度较高。  相似文献   

10.
杜航原  张晶  王文剑   《智能系统学报》2020,15(6):1113-1120
针对聚类集成中一致性函数设计问题,本文提出一种深度自监督聚类集成算法。该算法首先根据基聚类划分结果采用加权连通三元组算法计算样本之间的相似度矩阵,基于相似度矩阵表达邻接关系,将基聚类由特征空间中的数据表示变换至图数据表示;在此基础上,基聚类的一致性集成问题被转化为对基聚类图数据表示的图聚类问题。为此,本文利用图神经网络构造自监督聚类集成模型,一方面采用图自动编码器学习图的低维嵌入,依据低维嵌入似然分布估计聚类集成的目标分布;另一方面利用聚类集成目标对低维嵌入过程进行指导,确保模型获得的图低维嵌入与聚类集成结果是一致最优的。在大量数据集上进行了仿真实验,结果表明本文算法相比HGPA、CSPA和MCLA等算法可以进一步提高聚类集成结果的准确性。  相似文献   

11.
Phylogenetic tree construction has received much attention recently due to the availability of vast biological data. In this study, we provide a three step method to build phylogenetic trees. Firstly, a density-based clustering algorithm is used to provide clusters of the population at hand using the distance matrix which shows the distances of the species. Secondly, a phylogenetic tree for each cluster is constructed by using the neighbor-joining (NJ) algorithm and finally, the roots of the small phylogenetic trees are connected again by the NJ algorithm to form one large phylogenetic tree. To our knowledge, this is the first method for building phylogenetic trees that uses clustering prior to forming the tree. As such, it provides independent phylogenetic tree formation within each cluster as the second step, hence is suitable for parallel/distributed processing, enabling fast processing of very large biological data sets.The proposed method, clustered neighbor-joining (CNJ) is applied to 145 samples from the Y-DNA Haplogroup G. Distances between male samples are the variation in their set of Y-chromosomal short tandem repeat (STR) values. We show that the clustering method we use is superior to other clustering methods as applied to Y-DNA data and also independent, fast distributed construction of phylogenetic trees is possible with this method.  相似文献   

12.
Malware behaviour analysis   总被引:1,自引:0,他引:1  
Several malware analysis techniques suppose that the disassembled code of a piece of malware is available, which is however not always possible. This paper proposes a flexible and automated approach to extract malware behaviour by observing all the system function calls performed in a virtualized execution environment. Similarities and distances between malware behaviours are computed which allows to classify malware behaviours. The main features of our approach reside in coupling a sequence alignment method to compute similarities and leverage the Hellinger distance to compute associated distances. We also show how the accuracy of the classification process can be improved using a phylogenetic tree. Such a tree shows common functionalities and evolution of malware. This is relevant when dealing with obfuscated malware variants that have often similar behaviour. The phylogenetic trees were assessed using known antivirus results and only a few malware behaviours were wrongly classified.  相似文献   

13.
为了解决含有缺失形态学数据谱系树的构建问题,提出了运用属性约简构建谱系树的方法。首先,利用先验知识和较完整的部分物种数据构建初始谱系树;然后,运用属性约简原理获得属性决策组集合的决策点,进而建立先验决策模型;最后,根据先验决策模型确定缺失数据比例较高的物种在初始谱系树中的位置,通过物种嫁接完成谱系演化树的构建。实验结果表明,当单个物种缺失数据比例大于10%时,相比最大简约法在平均准确率方面平均高出10%左右。  相似文献   

14.
Coastal wetlands is complex,"different objects with the same spectrum" is serious in the remote sensing image,so the classification accuracy only based on spectral information is low.For this issue,based on the coastal zone wetland's spatial distribution rule,this paper established two kinds of distance layers,distance to coastline layer and distance to river layer,which applied maximum likelihood method and decision tree method,and developed a coastal wetland remote sensing information extraction methods,taking Sheyang County,Jiangsu Province for example.The developed methods highly improved the classification accuracy with the overall classification accuracy of 81.5%,and Kappa of 0.79.The maximum likelihood supervised classification method classification accuracy was lower with overall classification accuracy of 62.3%,and Kappa of 0.60.  相似文献   

15.
受TSP问题的启发,提出一种基于TSP构建系统发生树的蚁群算法(TSP-PTC)。该算法将物种集合用一个带权图G表示,并利用蚁群算法在图中搜索一条最优路径,最终系统发生树用最优路径及距离矩阵构建而成。用该方法构建出来的系统发生树是一棵带权树,它不仅可以表示物种之间的进化关系,而且可以粗略地表示出物种之间的进化时间。  相似文献   

16.
Evolutionary relationships among species are usually (1) illustrated by means of a phylogenetic tree and (2) inferred by optimising some measure of fitness, such as the total evolutionary distance between species or the likelihood of the tree (given a model of the evolutionary process and a data set). The combinatorial complexity of inferring the topology of the best tree makes phylogenetic inference an ideal candidate for evolutionary algorithms. However, difficulties arise when different data sets provide conflicting information about the inferred `best' tree(s). We apply the techniques of multi-objective optimisation to phylogenetic inference for the first time. We use the simplest model of evolution and a four species problem to illustrate the method.  相似文献   

17.
沈洋 《计算机应用研究》2020,37(11):3281-3286
针对二叉树支持向量机多分类算法准确率与分类效率较低的问题,提出了一种基于加权模糊隶属度的二叉树支持向量机多分类算法(binary tree support vector machines multi-classification algorithm based on weighted fuzzy membership,PF-BTSVM)。该算法依据最大最小样本距离与质心距离构造出一个近似完全二叉树,提高了整体结构的分类效率;利用模糊隶属度函数以及正负辅助惩罚因子对训练集进行筛选,剔除掉对分类无用的样本与噪声值,实现了训练集的提纯并且削弱了不平衡分类时超平面的偏移。在数据集上的实验结果表明,与其他二叉树多分类算法相比,该算法在提高了分类准确率以及稳定性的的同时还加快了训练与分类的速度,而且这种优势当分类的不平衡度越大时越明显。  相似文献   

18.
最小距离分类器的改进算法--加权最小距离分类器   总被引:12,自引:0,他引:12  
任靖  李春平 《计算机应用》2005,25(5):992-994
最小距离分类器是一种简单而有效的分类方法。为了提高最小距离分类器的分类性能,主要的改进方法是选择更有效的距离度量。通过分析多重限制分类器和决策树分类器的分类原则,提出了基于标准化欧式距离的加权最小距离分类器。该分类器通过对标称型和字符串型属性的距离的加权定义。以及增加属性值的范围约束,扩大了最小标准化欧式距离分类器的适用范围,同时提高了其分类准确率。实验结果表明,加权最小距离分类器具有较高的分类准确率。  相似文献   

19.
该文提出一种新的迭代渐进多序列比对算法IPMSA。该算法先用渐进方法进行多序列比对,然后通过迭代策略,利用上一轮多序列比对结果修正指导树,产生新一轮比对。重复这一过程,直到指导树不再发生变化或满足事先设定的迭代次数为止。以比对数据库BAliBASE中多蛋白质家族1idy为例,对IPMSA算法和ClustalW算法进行的比较研究表明,该算法能更有效地比对分歧较大的序列,并改进其系统发育树。  相似文献   

20.
ICP(Iterative Closest Point)算法是点云配准中最常用的算法,而点云的FPFH(Fast Point Feature Histograms)特征可在点云配准中为其提供初始匹配信息。针对该方法的初始匹配中距离测度等问题,提出一种改进的基于FPFH特征配准点云的方法。点云配准时首先计算2个点云的点的FPFH特征之间的巴氏距离,以k-d树检索巴氏距离最小的对应点,然后利用奇异值分解计算初始转换矩阵,进行ICP算法精细匹配,求得最终变换矩阵。实验结果表明,改进的基于FPFH特征配准点云的方法能为ICP算法提供良好的初始变换矩阵,在同等迭代次数下该方法具有更高的精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号