首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
针对名老中医病例的结构特点,设计了一种基于模拟退火的聚类算法对数据库中病例聚类进行全局优化.病例聚类时,根据一般意义的树间编辑距离,提出一种用于判断XML描述的病例之间是否相似的度量(称为XML编辑距离).利用XML编辑距离,可将XML数据间相似性度量的时间复杂度限制在多项式级,且能保持病例的XML描述文档的节点语义信息和节点间的祖孙嵌套关系.最后,在Tamino数据库上进行实验,结果证实了基于模拟退火的病例聚类算法在名老中医数据挖掘实践中的可行性和有效性.  相似文献   

2.
基于XML文档相似性的构件聚类分析   总被引:2,自引:2,他引:0  
构件聚类时,提出了一种计算基于XML描述的构件问相似度的递归算法,能有效度量构件XML描述文档包含的结构和语义信息.构造文档相似矩阵,利用遗传算法将高维样本映射到二维平面上,使用k-means算法聚类,获得全局最优的构件聚类.最后,在构件库测试模型上进行实验,实验结果表明,基于XML相似度的构件聚类算法在构件查询实践中具有可行性和有效性.  相似文献   

3.
针对当前XML文档结构聚类算法的一些不足,指出XML文档树中节点的重复和嵌套影响聚类的质量和效率.利用重复剪枝和嵌套剪枝简化XML文档树的表示,然后根据化简后的结构计算两棵XML文档树中的编辑距离,在此基础上得出两棵树整体的结构相似度量,按照层次聚类方法得到聚类结果.实验证明该算法有比较高的查全率和查准率,有效降低了时间复杂性,具有改进效果.  相似文献   

4.
近年来,随着建筑信息模型(BIM)构件库资源在互联网上迅猛增长,对大量 BIM 构件资源的聚类和检索应用变得日益迫切。现有方法还缺乏对 BIM 构件所承载的领域信息提取, 基于 BIM 构件所承载的领域信息,对 BIM 构件库资源开展聚类研究:①针对 BIM 构件,提出 了一种基于属性信息量的 BIM 构件相似性度量算法,以充分利用 BIM 构件属性信息。通过与 传统的Tversky相似性度量算法以及几何形状相似匹配算法相比,其在相似性度量上效果更好。 ②基于 BIM 构件间的相似性度量算法,提出了一种 BIM 构件库聚类方法。并在 BIMSeek 检索 引擎中集成了 BIM 构件的关键字检索功能以及分类器查看功能,为用户提供更丰富的检索和查 看方式。通过与传统的 K-medoids 和 AP 聚类算法相比,其聚类方法效果更好。  相似文献   

5.
针对图像特征匹配过程中采集图像易受噪声、光照、尺度等因素影响使产生的匹配结果鲁棒性差、误匹配率高等问题,提出一种基于加权相似性度量(WSM)的特征匹配方法。该方法首先采用基于网格多密度聚类的特征匹配(FM_GMC)算法对原始图像进行特征聚类块划分;其次在每一特征聚类块中,采用Canny提取边缘特征点并使用尺度不变特征变换(SIFT) 进行描述;然后采用加权的方式对特征聚类块之间的空间上下文信息间的Hausdorff距离、图像特征点外观描述子间的欧氏距离以及图像特征点的局部几何灰度信息的归一化互相关度量(NCC)进行相似性度量;最后依据最近邻距离比值(NNDR)对相似性度量结果进一步优化,从而确定特征匹配结果。以古建筑图像为数据集的实验结果表明WSM方法的平均匹配精确率达到92%,在匹配数量和精确率上优于常用的特征匹配方法,验证了该方法的有效性和鲁棒性。  相似文献   

6.
距离度量对模糊聚类算法FCM的聚类结果有关键性的影响。实际应用中存在这样一种场景,聚类的数据集中存在着一定量的带标签的成对约束集合的辅助信息。为了充分利用这些辅助信息,首先提出了一种基于混合距离学习方法,它能利用这样的辅助信息来学习出数据集合的距离度量公式。然后,提出了一种基于混合距离学习的鲁棒的模糊C均值聚类算法(HR-FCM算法),它是一种半监督的聚类算法。算法HR-FCM既保留了GIFP-FCM(Generalized FCM algorithm with improved fuzzy partitions)算法的鲁棒性等性能,也因为所采用更为合适的距离度量而具有更好的聚类性能。实验结果证明了所提算法的有效性。  相似文献   

7.
基于流数据的模糊聚类算法   总被引:1,自引:0,他引:1  
对流数据进行有效聚类是一个吸引研究者很大注意力的问题.传统的聚类挖掘算法只能适用于纯数值属性数据或纯分类属性数据,很难适用于混合属性的数据.针对混合属性数据的特点,在借鉴AcluStream算法的基础上,提出了一种模糊聚类算法.算法对流数据的相异度分类度量,定量属性使用欧氏距离和曼哈坦距离度量,定性属性可以采用hamming距离度量.模糊聚类算法的主要步骤有两步:第一步,运用最小距离聚类算法进行聚类,构成一个初始类.第二步,对基于最小距离聚类算法进行聚类所得到的初始簇,运用密度聚类方法进行聚合或分割,使得聚类集合稳定.实践证明:该算法是快速地有效的.  相似文献   

8.
一种基于XML文档聚类的XML近似查询算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了一种基于XML文档聚类的XML近似查询算法。给出了基于语义的XML文档间距离的计算方法,结合该语义距离,提出了基于网格的八邻域聚类算法对XML数据库进行聚类划分,进而利用在聚类过程中得到的聚类中心对静态有序选择算法的近似查询评估阶段进行优化,使得不用对XML数据库进行完全遍历就能及时返回满足用户需要的查询结果。最后,在汽车外形智能化设计的实验中表明该算法有效地提高了静态有序选择算法的查询效率。  相似文献   

9.
基于新的距离度量的K-Modes聚类算法   总被引:5,自引:1,他引:4  
传统的K-Modes聚类算法采用简单的0-1匹配差异方法来计算同一分类属性下两个属性值之间的距离, 没有充分考虑其相似性. 对此, 基于粗糙集理论, 提出了一种新的距离度量. 该距离度量在度量同一分类属性下两个属性值之间的差异时, 克服了简单0-1匹配差异法的不足, 既考虑了它们本身的异同, 又考虑了其他相关分类属性对它们的区分性. 并将提出的距离度量应用于传统K-Modes聚类算法中. 通过与基于其他距离度量的K-Modes聚类算法进行实验比较, 结果表明新的距离度量是更加有效的.  相似文献   

10.
面向混合属性数据集的改进半监督FCM聚类方法   总被引:1,自引:0,他引:1  
李晓庆  唐昊  司加胜  苗刚中 《自动化学报》2018,44(12):2259-2268
针对混合属性数据集聚类精度低的问题,本文提出一种基于改进距离度量的半监督模糊均值聚类(Fuzzy C-means,FCM)算法.首先,在数据集中针对类别属性进行预处理,并设置相应的相异度阈值;将传统聚类距离度量与改进的Jaccard距离度量结合,确定混合属性数据集的距离度量函数;最后,将所得距离度量函数与传统半监督FCM算法相结合,并在滚动轴承的不同复合故障数据的特征集中进行聚类.实验表明,该算法能在含无序属性的混合属性数据集的聚类中取得更好的聚类效果.  相似文献   

11.
目前关于XML文档相似性算法有很多种,其中基于编辑距离的方法是很重要的一类。目前已发表的基于编辑距离的算法中,编辑图算法由于其计算高效率的特点成为研究的出发点。首先介绍了编辑图算法的思想,由于它在计算过程中对同层兄弟节点的顺序有很强的依赖性,因此不能准确有效地比较数据无序的数据中心的XML文档相似性。针对该问题,在编辑图算法思想的基础上,结合路径算法的思想提出拆分编辑图算法。实验结果表明,拆分编辑图算法降低了编辑图算法中对兄弟节点次序的依赖性,更适合于数据中心的XML文档相似性比较,而且所得结果更加准确有效。  相似文献   

12.
有向标记根树之间的编辑距离(TED)被广泛应用在文档的结构化相似度计算上。文中提出有向标记根树之间的语义编辑距离(TSED)的概念,并给出计算公式。组合TED和TSED形成距离测度,并应用在XML文档的结构聚类上。实验表明该距离模型在结构化聚类的准确率和召回率上明显优于单纯利用TED算法的聚类结果。该算法在时间复杂性上也等同于利用动态规划计算TED的最好算法。  相似文献   

13.
黄亮  赵泽茂  梁兴开 《计算机应用》2012,32(6):1662-1665
Div+CSS流行于Web页面的布局,在这种布局下,网页中很多数据记录以重复结构的形式聚集在一个层级。为了更好地从网页中挖掘数据,提出了一种新的Web数据挖掘算法,把树编辑距离转化为字符串编辑距离的计算,改进字符串编辑距离算法,利用字符串编辑距离评价树的相似度,进而找到网页中的重复模式,提取数据。通过针对不同重复模式特征的网页的实验说明,基于编辑距离的Web数据挖掘算法不仅能提取具有根节点及上面几层相同的网页的数据,对具有底层节点相同的网页也是有效的。  相似文献   

14.
基于模式的XML文档相似度算法   总被引:1,自引:0,他引:1  
孙霞  程宏斌 《计算机工程》2010,36(21):54-56
提出一种基于XML模式的文档相似度算法,其中,XML模式间的相似度是XML文档聚类的重要依据,元素是XML模式的主体,模式的相似度由元素相似度组成,该算法综合考虑XML模式中元素的结构和语义信息,进一步提高计算相似度的精度。另外,该算法通过计算XML模式间的相似度,可以降低算法的复杂度,提高聚类的准确性,易于提取聚簇的通用XML模式。  相似文献   

15.
基于SOM聚类的软构件分类方法   总被引:1,自引:0,他引:1  
软构件刻面分类法是一种被各大软构件库系统广泛采用的分类方法,但是传统的刻面分类法需要人工建立和维护庞大的术语空间,增大了软构件建库和入库的工作量.利用基于SOM神经网络的聚类技术可实现无需建立术语空间的软构件自动分类,同时针对软构件的特点和SOM聚类的需要预先确定拓扑结构和聚类结果与输入样本的次序有关等缺点,对SOM聚类的训练过程进行改进以满足软构件聚类的要求.  相似文献   

16.
柯昌博  黄志球  肖甫 《计算机科学》2017,44(12):144-149
随着软件重用与产品线技术的日趋成熟,基于产品线采用构件快速地开发出软件产品成为了研究的热点,而高效的构件检索方法是此技术能否实施的关键。因此,使用本体Web语言(OWL)描述构件,并将其转化为本体树进行模糊匹配,然后对失配的构件进行重组,并使用KMP算法对查询本体树的相似概念进行修改,从而检索到更 精确且满足用户需求的构件。最后,给出了构件查询算法,并在此基础上开发了构件库查询系统原型,并与采用刻面和特征的查询方法进行了比较实验,结果证明了此方法的可行性与有效性。  相似文献   

17.
蛋白质相互作用网络的蜂群信息流聚类模型与算法   总被引:1,自引:0,他引:1  
蛋白质相互作用网络的聚类算法研究是充分理解分子的结构、功能及识别蛋白质的功能模块的重要方法.很多传统聚类算法对于蛋白质相互作用网络聚类效果不佳.功能流模拟算法是一种新型聚类算法,但该算法没有考虑到距离的作用效果并且需要人为地设置合并阈值,带有主观性.文中提出了一种新颖的基于蜂群优化机理的信息流聚类模型与算法.该方法中,数据预处理采用结点网络综合特征值的排序来初始化聚类中心,将蜂群算法的蜜源位置对应于其聚类中心,蜜源的收益度大小对应于模块间的相似度,采蜜蜂结点的所有邻接点按照结点网络综合特征值的降序排列,作为侦察蜂的搜索邻域.采用正确率、查全率等指标对聚类效果做出客观评价,并对算法的一些关键参数进行仿真、对比与分析.结果表明新算法不仅克服了原功能流模拟算法的缺点,且其正确率和查全率的几何平均值最高,能够有效地识别蛋白质功能模块.  相似文献   

18.
为了改善单一聚类算法的聚类性能,提出一种基于量子遗传算法的XML文档聚类集成解决方法。该方法首先利用KNN分类算法将XML文档划分成k个差异性的聚类成员;其次根据聚类成员的关系获得内联相似度矩阵,并通过多次分割、向下、向上、双向收缩的QR算法分解特征值对应的特征向量来实现矩阵的维数缩减;然后在映射空间上用量子遗传算法实现聚类集成,把每一个样本判别到最优的聚类类别中。这样减少了数据差异性对聚类结果的影响,提高了聚类质量。实验结果表明,在真实的数据集上,该聚类集成算法比其他聚类集成算法具有更好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号