首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
陆林花 《计算机仿真》2009,26(7):122-125,158
为了在聚类数不明确的情况下实现聚类分析,提出一种新的结合最近邻聚类和遗传算法的动态聚类算法.新算法包括两个阶段:第一阶段用最近邻聚类算法根据最近邻方法把最相似的实例分到同一个簇中并根据一些相似性或相异性度量过滤掉噪声数据从而得到初始聚类集,第二阶段是遗传优化阶段,利用动态聚类评估函数,动态地合并初始聚类集,从而获得接近最优的解.最后对算法进行了实验仿真,实验结果表明方法在事先不知道聚类数的情况下能够有效地进行聚类.  相似文献   

2.
在谱聚类算法没有先验信息的情况下,对于具有复杂形状和不同密度变化的数据集很难构建合适的相似图,且基于欧氏距离的高斯核函数的相似性度量忽略了全局一致性。针对该问题,提出一种基于共享最近邻的密度自适应邻域谱聚类算法(SC-DANSN)。通过一种无参数的密度自适应邻域构建方法构建无向图,将共享最近邻作为衡量样本之间的相似性度量进而消除参数对构建相似图的影响,体现全局和局部的一致性。实验结果表明,SC-DANSN算法相比K-means算法和基于K最近邻的谱聚类算法(SC-KNN)具有更高的聚类精度,同时相比SC-KNN算法对参数的选取敏感性更低。  相似文献   

3.
k最近邻分类算法原理简单且分类性能好,但因其时间复杂度高,不适用于实际领域在线垃圾邮件过滤.本文在建模阶段首先对训练邮件进行初始聚类,将训练邮件划分为半径大小几乎相同的初始簇,然后使用共享最近邻图聚类算法对包含邮件的初始簇进行再聚类,最终聚类簇被看成是可以增量更新的分类模型,最后使用经典k最近邻分类算法在该分类模型上对未知邮件进行分类.在公开语料Ling-Spam上的实验结果表明,本文提出的垃圾邮件识别算法不仅具有较高的垃圾邮件识别精度,而且还具有较低的时间复杂度.  相似文献   

4.
动态最近邻聚类算法的优化研究   总被引:4,自引:0,他引:4  
针对最近邻聚类算法对聚类半径敏感、不易获得最优解的问题,提出了基于贝叶斯信息测度BIC(Bayesianinformationcriterion)的优化方法。通过DBSCAN算法对初始数据集进行预处理,去除噪声数据。在参数空间内逐步调整聚类半径,利用最近邻聚类算法对数据集进行聚类,并计算每次聚类结果的贝叶斯信息测度值。比较各次聚类结果的贝叶斯信息测度值,最大贝叶斯信息测度值对应的聚类即为最优聚类结果。实验结果表明,优化的最近邻聚类算法很好地解决了合适的聚类半径选取问题。  相似文献   

5.
刘娟  万静 《计算机科学与探索》2021,15(10):1888-1899
密度峰值聚类算法是一种基于密度的聚类算法.针对密度峰值聚类算法存在的参数敏感和对复杂流形数据得到的聚类结果较差的缺陷,提出一种新的密度峰值聚类算法,该算法基于自然反向最近邻结构.首先,该算法引入反向最近邻计算数据对象的局部密度;其次,通过代表点和密度相结合的方式选取初始聚类中心;然后,应用密度自适应距离计算初始聚类中心之间的距离,利用基于反向最近邻计算出的局部密度和密度自适应距离在初始聚类中心上构建决策图,并通过决策图选择最终的聚类中心;最后,将剩余的数据对象分配到距离其最近的初始聚类中心所在的簇中.实验结果表明,该算法在合成数据集和UCI真实数据集上与实验对比算法相比较,具有较好的聚类效果和准确性,并且在处理复杂流形数据上的优越性较强.  相似文献   

6.
基于密度的聚类算法具有挖掘任意形状聚类结果和处理“噪声”数据等优势,同时也存在无法处理高维和密度分布不均匀数据的缺陷;鉴于此,给出了节点优先级导向的聚类算法.首先建立数据集的有向K邻居图:然后用K-最近邻核密度估计方法获得数据对象的局部信息,并在图中迭代地传播,以产生数据对象的优先级;最后以该优先级为导向从图中搜索聚类结果.实验结果表明,该算法适合处理高维、密度分布不均匀的数据.  相似文献   

7.
基于遗传进化的最近邻聚类算法及其应用   总被引:4,自引:0,他引:4       下载免费PDF全文
提出了基于遗传进化的最近邻聚类算法,该算法结合了遗传算法(GA)与最近邻聚类算法(NN)。对要进行分类的样本和特征量进行优化选取,去除位于类交界的模糊样本,并对样本分类有效的特征量进行放大,对不利于样本分类的特征量进行抑制,从而提高了样本分类的精度,将该算法应用于抽水蓄能发电机组的工况分类,大大提高了机组工况的识别效果,验证了基于遗传算法的最近邻聚类算法的有效性。  相似文献   

8.
聚类融合通过把具有一定差异性的聚类成员进行组合,能够得到比单一算法更为优越的结果,是近年来聚类算法研究领域的热点问题之一。提出了一种基于自适应最近邻的聚类融合算法ANNCE,能够根据数据分布密度的不同,为每一个数据点自动选择合适的最近邻选取范围。该算法与已有的基于KNN的算法相比,不仅解决了KNN算法中存在的过多参数需要实验确定的问题,还进一步提高了聚类效果。  相似文献   

9.
针对常规C-均值法所存在的缺点,本文提出了一种基于遗传操作的聚类算法,通过对聚类中心进行编码寻优,结合最近邻法的聚类准则,可大大提高聚类效果.仿真实验表明该方法能有效克服常规C-均值法对初始聚类中心选取及样本输入顺序的敏感性.  相似文献   

10.
储岳中 《微机发展》2008,18(3):196-199
在RBF神经网络的各种学习算法中,最近邻聚类算法学习时间短、计算量小,不需要事先确定隐单元的个数,完成聚类所得到的网络是最优的,并且可以在线学习,是一种自适应聚类学习算法,非常适合非线性实时系统的应用。但常规最近邻聚类算法在实时性要求较高的系统预测中学习时间相对较长。针对这一问题,提出了系统离线学习时采用减聚类算法,在线学习时采用改进的最近邻聚类算法,并变步长修正聚类半径和限制学习样本数。在函数拟合实验中,这种改进算法明显缩短了RBF神经网络的学习时间,在钢包精炼炉电极系统的在线辨识中的成功应用进一步表明对最近邻聚类算法的改进是有效的。  相似文献   

11.
提出一种新的基于图论的聚类算法NeiMu。该算法首先分析数据中的对象,寻找每个对象的k近邻,根据k近邻关系构造k近邻有向图,然后通过k近邻有向图中的k-互邻居关系构造k-聚类图,发现数据中的自然聚类。算法的特点是根据数据之间的互为k近邻关系确定数据中的自然簇,而不必引入其他方法来划分小簇,从而能够保证对象不会被错误聚类,仅会与其他小簇一起融合到一个大簇中。这一优点可以有效保证NeiMu算法的聚类质量。而且,NeiMu算法给出的这种类似自底向上的层次聚类结果还有利于用户根据渐变的结果确定最佳的k值。实验结果表明,该算法对密度变化大的数据、大小相差大的数据、任意分布形状的数据均具有很好的聚类质量,对孤立点也很健壮。  相似文献   

12.
针对许多经典的图聚类算法存在输入参数难以确定、时间复杂度过高、聚类精度较低等缺点,本文提出了一种无需输入参数的基于核心顶点的图聚类算法(NGCC)。该算法将相似的顶点分配到同一个簇后,再利用PageRank算法发现核心顶点以形成初始簇。然后,将剩余的未标记顶点进行分配,形成最终簇结构。实验结果证明,NGCC算法在无需任何参数的条件下,在不同规模的数据集上的聚类质量与对比的经典图聚类算法相当或更优,而且适用范围更广。  相似文献   

13.
一种最优模糊神经网络控制器   总被引:4,自引:0,他引:4  
基于最优控制的思想,通过对控制系统的过程模拟,提出一种最优模糊神经网络控制器的设计方案,首先利用基于十进制编码机制的遗传算法寻找最优的控制器结构,然后利用基于浮点数编码机制的遗传算法寻的最优的控制器参数,仿真结果表明该控制器优于常规模糊控制器。  相似文献   

14.
段瑞 《计算机应用研究》2020,37(4):1049-1053
为了提高从企业模型库中查询检索模型的效率,提出一种基于变迁图编辑距离的流程相似性算法。首先,给出了变迁图的概念及其生成方法;其次,提出边的长度概念,且删除和插入边的代价由该边的长度决定,基于此定义出图编辑操作及其代价,并用节点匹配算法计算最小图编辑距离;然后,给出两个过程模型的相似性概念和计算方法;最后,通过实验验证了算法的正确性且满足七条相似性性质,并验证了变迁图编辑距离满足四条距离性质。  相似文献   

15.
皇冠分解技术是一种算法优化技术,通过找出一个称为皇冠的特殊非空独立集,并将该独立集和它的邻接集合删除,得到一个不含皇冠的子图,从而降低原问题规模,降低算法时间复杂度。针对加权图的独立集问题相关性质设计了精确算法来找出一个权值之和最大的加权独立集。首先构造了一个二分图,并通过该图找出皇冠结构,采用皇冠分解技术分解图,针对无皇冠的子图设计了一个分支降阶递归算法,然后利用加权分治技术对算法时间复杂度进行分析,最终得到一个优于常规时间复杂度的精确算法。  相似文献   

16.
阐速了一种无监督连接划分聚类算法,算法基本思想是首先通过分割的方法将数据集划分为若干个原子簇,尊除噪声原子簇,然后通过对原子簇间连接亲密度的分析,构造原子簇间的连接图,切断车接亲密度很低的原子簇连接,合并连接亲密度高的连接,划分得到最后的聚类结果。算法具有很高的有效性,适用于高维数据集,能够对任意形状的簇进行聚类。通过分析与实验,证明该方法具有良好的效果。  相似文献   

17.
针对大规模图数据顶点聚类进行研究,提出了一种基于Spark的并行社区发现算法,其在基于极值优化的串行社区发现算法的基础上设计而成。此外还针对该串行算法在簇调整时因选择顶点数量过少而影响算法运行效率的问题,提出了一种多个顶点选择方法。该方法会计算一个阈值并发现所有适应度值小于该阈值的顶点,作为被选择的顶点;由于阈值是基于所有顶点的适应度值计算出来的,为了避免非常大的适应度值对阈值造成的影响该方法会限制被选择顶点的数量,若被选择的顶点过多,算法只保留其中的一部分。同时,还提出了一种顶点过滤方法,其可以有效减少图数据的数据量。在实验当中,提出算法的运行时间明显短于比较的其他基于Spark的并行化社区发现算法,可以发现提出算法的运行速度相对较快。  相似文献   

18.
攻击图是网络安全定性分析的常用工具,能为安全管理员阻止恶意入侵提供重要依据。为了进行网络安全测评和主动防御,提出防御策略模型和基于该模型的改进二进制粒子群算法。基于攻击图中的每个入侵动作,构建带权防御策略集,意在突出防御代价。为以最小代价阻止网络恶意入侵,引入并改进了二进制粒子群算法BPSO,获取了攻击图的最小关键策略集。仿真实验证明,能有效获取最小关键策略集的优化解,并通过与蚁群算法及贪心算法进行对比实验,证明其更高效。  相似文献   

19.
图结构聚类(SCAN)是一种著名的基于密度的图聚类算法。该算法不仅能够找到图中的聚类结构,而且还能发现图中的Hub节点和离群节点。然而,随着图数据规模越来越大,传统的SCAN算法的复杂度为O(m1.5)(m为图中边的条数),因此很难处理大规模的图数据。为了解决SCAN算法的可扩展性问题,本文提出了一种新颖的基于MapReduce的海量图结构聚类算法MRSCAN。具体地,我们提出了一种计算核心节点,以及两种合并聚类的MapReduce算法。最后,在多个真实的大规模图数据集上进行实验测试,实验结果验证了算法的准确性、有效性,以及可扩展性。  相似文献   

20.
近年来,图数据聚类在学术界引起了广泛的关注,许多优秀的聚类方法,如模块度优化算法、谱聚类,以及基于密度的聚类算法在图数据上取得了很好的效果。SCAN是一种著名的基于密度的图聚类算法,该算法不仅能够找出图中的聚类,而且还能够发现不同聚类间的Hub节点,以及图中的离群点。然而,该算法存在两方面的局限性:首先,在大规模图数据上,该算法需要耗费大量的时间用于计算图中每条边的结构相似性;另一方面,该算法存在两个参数[ε]和[μ],并且对这两个参数比较敏感。为了解决其局限性,提出了一种基于OpenMP的并行算法来求解节点相似性,并且提出了两种有效的负载均衡策略;其次,提出一种基于三角形的新型图结构聚类算法TSCAN。该模型能够有效降低算法对参数的敏感性,而且还能够发现重叠以及更稠密的社区。在多个大规模数据集上实验发现,基于多核的并行算法能够达到近乎线性的加速比,而且TSCAN算法对参数不敏感,能有效发现重叠社区。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号