首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
为了满足对XML文档集合进行数据挖掘需求,本文提出了根据XML文档树的语义信息和结构信息来计算其结构相似度,通过结构相似度构造其结构相似度矩阵,在此基础上应用DBSCAN算法来对XML文档集合进行聚类.与其他聚类算法相比,其聚类的速度得到了很大的提高.  相似文献   

2.
基于结构相似度的轨迹聚类算法   总被引:3,自引:0,他引:3  
袁冠  夏士雄  张磊  周勇 《通信学报》2011,(9):103-110
针对目前轨迹数据聚类直接以整条轨迹数据作为基本单元,导致聚类效果降低的问题,提出了基于结构相似度的轨迹聚类算法。算法引入轨迹结构的概念,并给出结构相似度计算函数来分析轨迹内外部特征。首先根据转角将轨迹划分成若干轨迹段,然后通过计算轨迹段的结构相似度来判断轨迹的匹配程度,进而完成轨迹聚类。真实数据的实验结果表明:该算法较其他同类算法分析轨迹更全面、效率更高;可以通过不同参数灵活调整特征的敏感度,聚类结果更具有实际意义。  相似文献   

3.
在传统的K-means聚类算法基础上提出了一种基于均方差属性加权的MWS-K-means算法.引入特征权重以提高聚类结果的类内相似度(intra-similarities),从而提高聚类精度.考虑到K-means算法采用误差平方和作为聚类准则函数, 而误差平方和与概率论中数字特征的基本描述方法--均方差具有较高相似性,算法中特征权重的计算采用均方差法.根据属性的离散程度对欧氏距离进行加权处理,从而用相对距离代替绝对距离来计算类间相似度.实验结果表明:MWS-K-means算法在聚类精度方面优于标准的K-means算法.  相似文献   

4.
文中提出了基于给定的查询词以新闻文档和具有额外情感极性评论信息为排名特征的新闻事件排名算法框架。首先,通过语义相似度交互模块将查询关键词、新闻文档和带有情感色彩的新闻评论转换为语义向量表示,并计算查询词和新闻文档相似度以及查询词和评论语句相似度。然后,基于特征提取查询关键词重要性特征、查询关键词频率特征和新闻事件相关性特征。最后,通过特征聚合模块将提取的特征与一些辅助相关特征合并,产生全局相关性分数,并基于所得出的全局相关性分数对新闻事件进行排名聚类。大型新闻数据集上的实验证明了该算法框架与常见排名算法相比具有明显的性能优势。  相似文献   

5.
罗丹  刘先锋 《信息技术》2009,33(8):24-26,31
通过对XML结构聚类现状进行研究分析,提出了一种新的XML文档结构相似度度量方法DBTD(Density-Based of the Tree Distance),并在此基础上提出以基于密度的DBSCAN方法对XML文档进行结构聚类.实验表明:该方法能够对XML文档进行结构聚类,且其聚类结果充分展现了该方法的有效性.  相似文献   

6.
密度峰值聚类算法(DPC)通过决策图直观地找到类簇中心进而完成聚类,是一种简单高效的聚类算法。然而,DPC算法的截断距离和类簇中心都是人为确定的,受主观影响较大,具有不确定性。针对上述问题,提出一种基于类簇合并的无参数密度峰值聚类算法(NDPCCM)。首先根据样本点两两之间的相似度的分布特征将其分为类内相似度和类间相似度两种类型,并利用类内相似度自动确定截断相似度,避免了人为设置参数;接着根据簇中心权值的下降趋势自动选择初始类簇中心,得到初始类簇;最后通过合并初始类簇对初步聚类结果进行优化,提高了聚类的准确性。在人工数据集和UCI真实数据集上,将所提算法与DPC、DBSCAN、K-means算法进行对比实验。结果表明所提算法无需输入参数就能够自动得到类簇,且聚类性能优于其他算法。  相似文献   

7.
一种基于距离调节的聚类算法   总被引:2,自引:1,他引:1  
针对k-means算法不适合凹形样本空间的问题,提出了一种基于距离调节的聚类算法.算法中引入了一种调节最短路径距离作为算法的相似度函数,该函数可以使经过高密度数据区域的两点距离缩短,而经过低密度数据区域的两点距离加长,由此来缩小类间样本的相似度,同时加大类间的相似度,以及更好的聚类.实验结果证明,该算法对凹状的聚类样本空间具有很好的聚类效果.  相似文献   

8.
模糊C均值(FCM)聚类算法及其相关改进算法基于最大模糊隶属度原则确定聚类结果,没有充分利用迭代后的模糊隶属度矩阵和簇类中心的样本属性特征信息,影响聚类准确度。针对这个问题,该文提出一种新的改进思路:改进FCM算法输出定类原则。给出二元属性拓扑子空间中属性相似度的定义,最终提出一种基于属性空间相似性的改进FCM算法(FCM-SAS):首先,选择FCM算法聚类后模糊隶属度低于聚类置信度的样本作为存疑样本;然后,计算存疑样本与聚类后聚类中心的属性相似度;最后,基于最大属性相似度原则更新存疑样本的簇类标签。通过UCI数据集实验,证明算法不仅有效,还较一些基于最大模糊隶属度原则定类的改进算法具有更优的聚类评价指标。  相似文献   

9.
一种利用人物相似度的视频索引算法   总被引:2,自引:0,他引:2       下载免费PDF全文
本文面向视频分析和索引技术,提出一种利用人物相似度进行视频索引的算法.该算法应用SVMs概率输出理论,将底层特征空间距离映射为语义层人物相似度,并提出一种新的非监督聚类算法,修正部分误判,最终实现对视频节目中人物的自动聚类和索引.实验结果表明,该算法实用而高效,是对现有视频索引算法的有效补充.  相似文献   

10.
赖冠辉  王晓博  刘超 《电子学报》2009,37(Z1):22-30
 在潜在语义模型的基础上融入了软件文档和程序代码的特点,提出了基于类继承关系的代码聚类、代码特征项分类加权、引入相似度词典以及基于文档类型的分类搜索这四种改进策略.实验结果表明,四种策略可以在保持查全率不变的情况下提高查准率15%左右.表明在提取代码与文档间可跟踪性链时,考虑它们的固有特点,将有助于提高检索系统的查全率和查准率.  相似文献   

11.
一种基于模糊聚类理论的文本水印算法   总被引:2,自引:2,他引:0  
基于模糊聚类理论,建立了以文本文档中汉字特征为变量的聚类模型。根据人类视觉系统特性,将文本文档中汉字按照汉字笔画数、出现频率及分布均匀度作了分类,选择文本文档中汉字笔画数相对较少、使用频率较高、分布均匀度高的类别嵌入水印。实验结果表明,该算法对于内容的部分删除、添加、格式调整等攻击具有较好的鲁棒性,水印的不可见性好。  相似文献   

12.
提出了一种基于子空间分解的高效谱聚类算法。首先,基于共识信息和特定域信息的矩阵分解将链接文档划分为3个子空间,然后对子空间添加正则化项建模共识信息和特定域信息对聚类的不同影响,并采用交替优化方法实现谱聚类。考虑到谱聚类的复杂性,提出了一种带曲线搜索的梯度下降法加速求解过程。3个真实数据集上的实验结果表明,所提算法在聚类质量和效率方面始终明显优于目前典型的基线算法,且对输入参数不敏感。  相似文献   

13.
In response to the problems traditional multi-view document clustering methods separate the multi-view document representation from the clustering process and ignore the complementary characteristics of multi-view document clustering,an iterative algorithm for complementary multi-view document clustering——CMDC was proposed,in which the multi-view document clustering process and the multi-view feature adjustment were conducted in a mutually unified manner.In CMDC algorithm,complementary text documents were selected from the clustering results to aid adjusting the contribution of view features via learning a local measurement metric of each document view.The complementary text document of the results among the dimensionality clusters was selected by CMDC,and used to promote the feature tuning of the clusters.The partition consistency of the multi-dimensional document clustering was solved by the measure consistency of the dimensions.Experimental results show that CMDC effectively improves multi-dimensional clustering performance.  相似文献   

14.
高光谱图像聚类问题一直是图像处理领域的研究热点。谱聚类算法是最流行的聚类算法之一,但其计算复杂度较大,难以处理大规模的高光谱图像数据。由于二叉树能够较快地选取锚点,因此基于二叉树锚点图,充分利用高光谱图像的光谱和空间特性,可保证聚类性能并降低计算复杂度。然而,该聚类算法一般采用有核的聚类方法,因此不可避免地引入了参数调节。在二叉树锚点选取的基础上,提出了一种基于二叉树锚点的高光谱快速聚类算法,该算法创新性地将二叉树锚点选取和无核聚类方法应用于高光谱图像中。首先,利用二叉树从高光谱数据中选取一些具有代表性的锚点;紧接着构造基于锚点的无核相似图,有效避免了通过人为调节热核参数来构造相似图;然后进行谱聚类分析获得聚类结果;最后,将该算法应用到高光谱图像聚类中。该算法不仅提高了聚类速度,还减少了原有热核参数调节。实验结果表明,与传统的聚类算法相比,所提算法能够在较短的时间内获得更佳的聚类精度。  相似文献   

15.
Application of a New Fuzzy Clustering Algorithm in Intrusion Detection   总被引:1,自引:0,他引:1  
This paper presents a new Section Set Adaptive FCM algorithm. The algorithm solved the shortcomings of localoptimality, unsure classification and clustering numbers ascertained previously. And it improved on the architecture of FCM al-gorithm, enhanced the analysis for effective clustering. During the clustering processing, it may adjust clustering numbers dy-namically. Finally, it used the method of section set decreasing the time of classification. By experiments, the algorithm can im-prove dependability of clustering and correctness of classification.  相似文献   

16.
基于分水岭-谱聚类的SAR图像分割   总被引:7,自引:2,他引:5  
由于谱聚类是基于图论的、以相似性为基础的聚类方法,需要计算图像中每对像素点之间的相似性.当图像很大时,计算相似性矩阵和求解相应的特征值、特征向量是很困难和耗时的.为此,针对合成孔径雷达(SAR)图像的特点,提出了一个两阶段的图像分割方法,首先采用分水岭算法对图像进行过分割,然后再用改进的谱聚类算法进行聚类.新方法不仅可以减少噪声对分割结果的影响,很好地保持图像边缘,而且对时间要求较高的应用也具有一定的参考价值.为了验证新方法的有效性,将其用于SAR图像分割,取得了较优的分割结果.  相似文献   

17.
刘梦娇 《电子科技》2016,29(11):107
针对传统模糊C-均值聚类算法对复杂的医学、遥感图像难以获得满意分割效果问题,将图像模糊C-均值聚类引入图像分割问题研究中,提出了基于直方图的图像模糊聚类快速分割算法。将越南学者Le提出的分布式图像模糊聚类算法目标函数进行简化,得到图像模糊聚类算法目标函数;采用拉格朗日乘子法获取其迭代求解所对应的隶属度、中立度、拒分度和聚类中心表达式,设计图像模糊聚类算法并对其收敛性进行了证明。通过复杂医学和遥感图像的分割测试结果表明,新的分割算法相比现有的模糊C-均值聚类分割算法和直觉模糊C-均值聚类分割算法具有更好的分割性能。  相似文献   

18.
Affinity Propagation(AP)聚类算法将所有数据点作为潜在的聚类中心,在相似度矩阵的基础上通过消息传递进行聚类, 但却不适用于子空间聚类。基于属性关系矩阵的AP子空间聚类算法(AP clustering algorithm based on attributes relation matrix, ARMAP)是一种异步软子空间聚类算法,首先通过计算属性a的 邻域得到属性的关系矩阵,然后通过查找极大全1子矩阵得到数据集的兴趣度子空间,最后在各兴趣度子空间使用AP算法聚类,完成子空间聚类的任务。ARMAP算法将子空间的查找转换成查找矩阵的极大全1子矩阵,在正确查找子空间的同时,降低了时间复杂度。算法既保留了AP聚类算法的优点,又克服了AP算法不能进行子空间聚类的不足。  相似文献   

19.
基于VSM的文本聚类忽略了文本关键词稀疏带来的相似度漂移问题和关键词之间的语义信息和各维度之间的关系,致使文本的相似度计算不精确,文中对相似度计算方法TF—IDF进行了改进,并提出一种新的聚类方法,利用分布式估计算法和禁忌搜索算法进行聚类,融合分布式估计算法的收敛速度快和禁忌搜索算法能跳出局部搜索的优点,首先对文本进行预处理,然后用分布式估计算法和禁忌搜索算法聚类,既能快速聚类又能防止聚类收敛到局部最优。测试结果表明这种算法行之有效。  相似文献   

20.
提出了基于滑动窗口的不确定数据流子空间聚类算法USSC,它应用采样时加权值的方法来选择初始化聚类中心点,采用滑动窗口SW缓存一段时间的元组作为聚类对象,并提出一种新的离群点处理机制来排除离群点Opo为适应不确定数据流元组不确定特性,该算法使用基于隶属度的非分割聚类方法来确定一个元组只能划分到一个簇中.试验结果表明,USSC算法与同类型的算法相比有较好的聚类效果和较快的聚类速度,而且其自身拥有很强的可伸缩性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号