首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
鉴十在数据学习理论中,基于各种几何正则化的处理方法引起人们的广泛关注,以基于独立成分分析的地震数据处理为背景,针对数据向量的单位模长约束,研究丫单位超球面上的二元聚类问题.通过欧氏诱导度量,推导了单位超球面上的黎曼梯度公式,并据此构造了求取其上二聚类和数据平均的小动点迭代算法.实验结果表明了其有效性和优越性.  相似文献   

2.
提出了一种基于极大熵理论的球面K均值文本聚类算法ME-SPKM。该算法利用了传统文本聚类算法SPKmeans中使用的余弦相似度度量,进而引入极大熵理论构造了适合文本聚类的极大熵目标函数。对文本数据的实验证明了极大熵球面K均值文本聚类算法取得了比传统文本聚类算法更好的聚类效果。  相似文献   

3.
一种基于旋转超盒和引力场融合的聚类算法   总被引:1,自引:0,他引:1  
针对传统聚类算法处理复杂分布数据的不足,提出了一种新型的基于旋转超盒和引力场融合的聚类算法.该算法由1)数据集归一化;2)利用旋转超盒构造初始类别;3)借助引力场概念对初始类别进行融合3个步骤构成.仿真结果表明,该算法在无需聚类数目的情况下,对复杂分布数据具有很好的聚类效果.  相似文献   

4.
针对简单线性聚类算法(SLIC)中需要初始预设超像素个数和大量重复聚类计算的问题,提出一种基于边缘信息的RGB-D图像超像素分割算法。利用各向异性高斯核提取彩色图像中边缘强度信息,在此之上,自适应地提取图像的初始聚类中心。仅对位于图像边缘附近的像素点进行重新聚类标记计算,这种策略在保证聚类准确的同时,大大降低了重新聚类计算的复杂度。同时,本文提出一种基于边缘信息的距离度量准则来度量两个像素点之间的空间距离。在公开的图像数据集上的实验结果表明,相比其他几种算法,本文算法的分割结果更能反应出场景中物体的轮廓信息,而且算法效率更高。  相似文献   

5.
优化K-means初始聚类中心研究   总被引:2,自引:0,他引:2  
K-means算法因为对初始中心依赖性而导致聚类结果可能陷入局部极小。基于密度的多中心聚类并结合小类合并运算的聚类算法解决了计算空间上的极小化,收敛进度上得到了控制,结果明显优于K-means的聚类结果。算法的每一次迭代都是倾向于发现超球面簇,尤其对于延伸状的不规则簇具有良好的聚类能力。  相似文献   

6.
聚类可应用于现代生活的诸多方面,现代生活中的数据对象往往是高维、稀疏的。对于此类高维数据,传统聚类算法不能有效地处理。提出一种基于属性相似性的改进的超图聚类算法,在原有超图聚类算法的基础上,根据超边距离阈值形成超图模型并采用超图分割法对数据对象进行聚类,采用簇内奇异特征值进行评估聚类质量。  相似文献   

7.
数据聚类的FCM与aiNet方法   总被引:3,自引:1,他引:3  
模糊C均值聚类算法使用欧氏距离衡量,遇到潜在的类或簇背离超球面结构时表现不佳。利用免疫理论中的克隆选择、亲和力成熟和免疫网络理论来建构一种网络模型aiNet,将其用于数据聚类可以减少数据中的冗余,描述数据结构和聚类形状。通过实验比较了这两种方法的特点,结果表明,当潜在的类或簇背离凸集时,aiNet方法表现出良好的适应性。  相似文献   

8.
陈利跃  杭钟灵  余亮  黄剑  何星 《控制工程》2015,22(2):360-364
通过对电力远动监测系统和数据挖掘技术的讨论,提出一种基于马氏距离的双层聚类异常检测算法。针对远动系统数据非球面分布的特点,该算法通过K-means聚类改进算法对数据进行初始分类,然后使用基于马氏距离的Clustering Using Representatives(CURE)聚类改进算法对初始分类结果进行优化,以较少的计算成本去除K值设定的影响,达到预期的检测结果。同时,基于马氏距离的CURE聚类改进算法对球面和非球面分布的数据有非常好的适应能力。  相似文献   

9.
随着海量大数据的出现,聚类算法需要新型计算模式来提高计算速度与运行效率。本文提出一种基于动态双子种群的差分进化K中心点聚类算法DGP-DE-K-mediods(Dynamic Gemini Population based DE-K-mediods)。DGP-DE-K-mediods利用动态双子种群方法,解决聚类算法在维持种群密度的时候避免陷入局部最优的问题;采用差分进化(Differential Evolution, DE)算法来提高全局最优能力的强健性;基于Hadoop云平台来并行处理DGP-DE-K-mediods,加快算法的运行速度和效率;描述基于MapReduce的并行聚类算法的编程过程;DGP-DE-K-mediods利用UIC的大数据分类的案例数据和网络入侵检测这种大数据应用来仿真算法的效果。实验结果表明,与已有的聚类算法相比,DGP-DE-K-mediods在检测精度、运行时间上有明显的优势。  相似文献   

10.
一种优化的基于网格的聚类算法   总被引:5,自引:0,他引:5  
聚类是数据挖掘领域中一个重要的研究课题.与其它算法相比,基于网格的聚类算法可以高效处理低维的海量数据.然而,由于划分的单元数与数据的维数呈指数增长,因此对于维数较高的数据集,生成的单元数过多,导致算法的效率较低.本文基于CD—Tree设计了新的基于网格的聚类算法,该算法的效率远高于传统的基于网格聚类算法的效率.此外,本文设计了一种剪枝优化策略,以提高算法的效率.实验表明,与传统的聚类算法相比,基于CD-Tree的聚类算法在数据集的大小及维度的可伸缩性方面均有显著提高.  相似文献   

11.
动态克隆选择算法应用于入侵检测的过程中,经过记忆检测器和成熟检测器检测后的剩余抗原被直接作为自体供未成熟检测器耐受,但这些剩余抗原并非完全是自体,有可能隐含新型攻击。为此提出利用聚类分析技术进行改进,先用聚类算法将剩余抗原分成大、小簇,然后分析小簇中的数据,发现其中隐含的新型攻击,并及时更新记忆检测器集和自体集。实验结果表明,加入聚类分析的动态克隆选择算法能够增强检测系统发现未知入侵的能力。  相似文献   

12.
离群点检测是数据挖掘一个重要内容,它为分析各种海量的、复杂的、含有噪声的数据提供了新的方法。对离群数据挖掘几类主要的方法进行了分析和评价,并在此基础上了提出了一种基于遗传聚类的离群点检测算法。该算法结合了遗传算法全局搜索的优点和K-均值方法局部收敛速度快的特点,取得较好效果。实验验证该算法很好地检测到数据集中的离群点,同时还完成了数据集的聚类。具有较好的实用性。  相似文献   

13.
针对LEGClust算法在合并簇的过程中易将异常簇并入正常簇的问题,提出一种改进的LEGClust算法,将LEGClust算法应用于入侵检测,发现数据集内任意形状簇,建立入侵检测模型,找出异常数据。在KDD CUP1999数据集上的仿真实验结果表明,该方法能提高入侵检测能力。  相似文献   

14.
标签传播算法(LPA)是一种高效地处理大规模网络的社区发现算法,由于其近乎线性的时间复杂度而受到广泛关注。然而,该算法每个节点的标签依赖于其邻居节点,其迭代速度和聚类有效性对标签信息的更新顺序非常敏感,影响了社区发现结果的准确性和稳定性。基于该问题,提出了一种基于加权聚类集成的标签传播算法。该算法利用多次标签传播算法的结果作为基聚类集,并用模块度评估每个基聚类的重要性,使其作为节点相似性度量的权值形成加权相似性矩阵,最后通过层次聚类得出最终的社区划分结果。在实验分析中,该算法和其他5个具有代表性的标签传播算法的改进算法在真实数据集上进行了比较,展示了新算法能有效地提高标签传播算法的社区发现精度。  相似文献   

15.
最近几年,谱聚类思想开始用于数据挖掘领域,并取得了较好的效果;离群数据挖掘是对离群点进行检测,发掘出有用知识。将谱聚类中的NJW算法成功应用到离群数据挖掘领域,并结合离群指数的概念,提出了一种适合离群数据挖掘的谱聚类算法。与原有的基于聚类的离群检测算法相比,具有更好的效率和适应性。实验验证了所提算法的有效性和可行性。  相似文献   

16.
In this research, we propose two new clustering algorithms, the improved competitive learning network (ICLN) and the supervised improved competitive learning network (SICLN), for fraud detection and network intrusion detection. The ICLN is an unsupervised clustering algorithm, which applies new rules to the standard competitive learning neural network (SCLN). The network neurons in the ICLN are trained to represent the center of the data by a new reward-punishment update rule. This new update rule overcomes the instability of the SCLN. The SICLN is a supervised version of the ICLN. In the SICLN, the new supervised update rule uses the data labels to guide the training process to achieve a better clustering result. The SICLN can be applied to both labeled and unlabeled data and is highly tolerant to missing or delay labels. Furthermore, the SICLN is capable to reconstruct itself, thus is completely independent from the initial number of clusters.To assess the proposed algorithms, we have performed experimental comparisons on both research data and real-world data in fraud detection and network intrusion detection. The results demonstrate that both the ICLN and the SICLN achieve high performance, and the SICLN outperforms traditional unsupervised clustering algorithms.  相似文献   

17.
提出了一种基于核的聚类算法,并将其应用到入侵检测中,构造了一种新的检测模型。通过利用Mercer核,我们把输入空间的样本映射到高维特征空间后,在特征空间中进行聚类。由于经过了核函数的映射,使原来没有显现的特征凸显出来,从而能够更好地聚类。而且在初始化聚类中心的选择上利用了数据分段的方法,该聚类方法在性能上比经典的聚类算法有较大的改进,具有更快的收敛速度以及更为准确的聚类。仿真试验的结果证实了该方法的可行性和有效性。  相似文献   

18.
为了深入挖掘校园无线网络轨迹行为数据信息,采用基于密度的聚类方法对校园内用户的轨迹行为进行特征聚类。由于基于密度的聚类算法通常采用距离作为相似性度量方式,为了有效衔接此类聚类算法,先将用户相似度矩阵通过转换函数转变为距离矩阵。引入离群点检测算法,将离群点检测算法与聚类算法相结合,减少参数的输入个数,增加聚类的聚合程度。改进后的聚类算法可以有效检测出数据轨迹的异常,帮助高校通过对学生上网记录的处理找到浏览信息与大部分同学不一致的人,缩小目标范围,进行有针对性的处理。通过定性分析和实验对比验证,确定两种基于离群点检测的共享最近邻的快速搜索密度峰值聚类适用于校园无线网络行为轨迹相似度矩阵的处理,邓恩指数等聚类内部指标及整体性能优于同类算法。  相似文献   

19.
一种新的中心对称聚类算法   总被引:2,自引:0,他引:2  
Data clustering is an important reserch field in data mining.The key of the clustering algorithm is the distance measure.In this paper,we put forward a new distance measure based on central symmetry,Then we apply it to data clustering.The experimental studies prove the feasibility of this algorithm and get a satisfied result in face detection.  相似文献   

20.
In this paper, a new approach for fault detection and isolation that is based on the possibilistic clustering algorithm is proposed. Fault detection and isolation (FDI) is shown here to be a pattern classification problem, which can be solved using clustering and classification techniques. A possibilistic clustering based approach is proposed here to address some of the shortcomings of the fuzzy c-means (FCM) algorithm. The probabilistic constraint imposed on the membership value in the FCM algorithm is relaxed in the possibilistic clustering algorithm. Because of this relaxation, the possibilistic approach is shown in this paper to give more consistent results in the context of the FDI tasks. The possibilistic clustering approach has also been used to detect novel fault scenarios, for which the data was not available while training. Fault signatures that change as a function of the fault intensities are represented as fault lines, which have been shown to be useful to classify faults that can manifest with different intensities. The proposed approach has been validated here through simulations involving a benchmark quadruple tank process and also through experimental case studies on the same setup. For large scale systems, it is proposed to use the possibilistic clustering based approach in the lower dimensional approximations generated by algorithms such as PCA. Towards this end, finally, we also demonstrate the key merits of the algorithm for plant wide monitoring study using a simulation of the benchmark Tennessee Eastman problem.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号