首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
首先提出了一种基于属性值的co-occurrence相似度概念,通过对其进一步的研究,提出了3个等价性表述;然后对属性值之间的co-occurrence相似度进行引申,给出了数据对象之间co-occurrence相似度的定义,并将其成功应用到聚类集成方法中。利用co-occurrence相似度在计算某个初始聚类结果中数据对象之间的相似度时,充分考虑了其他初始聚类结果和该初始聚类结果之间的相互影响和联系。实验表明, 基于co-occurrence相似度的聚类集成(CSCE)方法能有效识别数据之间的细微结构,有助于提高聚类集成的效果。  相似文献   

2.
针对现有的属性约简方法在约简的过程中与用户交互过程太少的问题,提出了属性距离的定义及其基于聚类的约简方法。首先给出了属性依赖度和相对依赖度的定义,然后根据用户给定参数和由属性相对依赖度计算出的属性距离对属性进行聚类,将区分能力相似的属性聚集到同一个类中,最后从每个类中选取出属性组成约简属性集。实验结果表明:该方法比以往的属性约简方法有更好的交互性能,能通过用户的参数,约简出接近用户需求的属性集。  相似文献   

3.
针对于蚁群聚类算法在搬运数据项过程中随机选择移动位置时,由于无效移动导致的算法收敛速度缓慢等缺陷,论文提出了一种基于相似度的蚁群聚类算法.通过设计相似度矩阵,基于相似移动机制将蚂蚁随机移动方式优化为按照相似度矩阵规则实施目的性的关联.实验选取Iis、Wine、Haberman和Balance-scale四种经典数据集,相较于现有的LF算法及GACC算法,结果表明在蚂蚁空载率都为90%的条件下,论文提出的SMACC算法的迭代次数明显降低,均体现出较优的聚类速率.  相似文献   

4.
将夹角余弦的概念推广到混合属性的数据,提出了一种基于相似度的聚类方法CABMS,同时给出了一种计算聚类阈值的简单有效的策略。有关CABMS数据库的大小,属性个数具有近似线性时间复杂度,使得聚类方法CABMS具有好的扩展性。实验结果表明,CABMS可产生高质量的聚类结果。  相似文献   

5.
数据集成环境下基于相似度的数据库聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
郑凯  梁卓明  郑文栋 《计算机工程》2011,37(19):71-72,75
数据集成环境中的全局数据规划方法复杂度很高,且需要经历较长的周期。针对该问题,提出一种基于相似度集合运算的数据库聚类算法,利用自定义的相似数据库、数据库聚类和聚类距离描述数据库的聚类过程,并给出聚类效果的评价方法。实例分析结果证明,该算法简单且具有通用性。  相似文献   

6.
基于属性与对象关系信息的综合差异度计算   总被引:2,自引:0,他引:2       下载免费PDF全文
传统聚类算法仅考虑属性相似性,较少利用对象间的相互关系.为此,通过关系信息属性化操作,将关系数据转化为关系型属性数据,提出一种针对关系型属性的差异度计算方法.在此基础上,规范化属性变量中的区间和序数变量,将分类变量转变为二态变量,关系变量视为二态变量,提出一种兼顾属性与对象问关系信息的综合差异度计算方法.理论分析和实例...  相似文献   

7.
用于Web文档聚类的基于相似度的软聚类算法   总被引:3,自引:1,他引:3  
提出了一种基于相似度的软聚类算法用于文本聚类,这是一种基于相似性度量的有效的软聚类算法,实验表明通过比较SISC和诸如K-mcans的硬聚类算法,SISC的聚类速度快、效率高。最后展望了文本挖掘在信息技术中的发展前景。  相似文献   

8.
基于本体及相似度的文本聚类研究*   总被引:1,自引:0,他引:1  
为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类忽略概念的内涵及缺少概念间的联系,设计和改进了基于本体和相似度的文本聚类方法TCBOS(text clustering based on ontology and similarity)。研究了文本预处理及分词的方法,设计了用有限状态自动机来自动提取概念和关系的方法,对概念语义扩展和相似度计算方法进行了改进和完善,通过应用本体的语义相似度来度量文档间相近程度,完善了根据相似度进行文本聚类的K中心点算法。实验证明,该方法从聚类的准确性和聚类的关联度方  相似文献   

9.
文本聚类过程中,存在着文本数据空间维数巨大,聚类的数目不能直接确定等问题。为此,有专家学者提出了次胜者受罚的竞争学习(Rival Penalized Competitive Learning)算法,简称RPCL算法。该算法在一定程度上,解决了聚类的数目的确定问题。但是,该算法只适合做低维数据的聚类,对于高维数据聚类效果极差。该文提出了一种改进的RPCL算法,该方法不再采用欧氏距离去计算相似度,而是采用模糊相似度的方法,通过实验表明,改进的RPCL算法在聚类效果上好于经典的RPCL算法。  相似文献   

10.
当前的搜索引擎中,存在大量的冗余搜索结果,且不能对搜索结果进行指导分类。本文提出一种基于密度的聚类算法,能够有效地对搜索结果进行聚类优化和分类。该算法选取搜索结果中权重高于一定值的网页,提取网页的特征值与候选关键字,标注特征范围,再进行网页相似度比较,最大限度地消除冗余网页,并根据网页的候选关键字提供分类,从而提高搜索结果的精准性和满意度,达到更智能的效果。  相似文献   

11.
基于树编辑距离的层次聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hi-erarchical Clustering Algorithm Based on Tree Edit Distance)。新算法通过树编辑操作使用最少的代价计算属性相似性,克服了传统聚类算法标称型计算的缺陷,提高了聚类精度,通过设定阈值对给定样本聚类。实验证明了新方法在身份识别上的准确性和有效性,讨论了不同参数对实验结果的影响,对比传统聚类算法,HCTED算法性能明显提高。新算法已经应用到警用流动人口分析中,取得了良好效果。  相似文献   

12.
现有的基于道路网络对象聚类算法eb-cls采用网络距离描述移动对象间的相似性,没有充分利用对象的时间和空间属性,造成算法不能体现移动对象动态演化的移动模式,频繁更新聚类结果并且聚类精度不理想,执行效率低等问题。针对这些不足,提出基于道路网络的移动对象聚类算法MOBORN(Moving Objects Based on Road Network),该算法引入时空相似系数,考虑了移动对象速度、方向和位置。当移动对象间的时空相似系数达到给定阈值,将其分到同一聚类,并动态维护聚类结果,减少聚类次数。实验结果证明,与eb-cls算法相比,该算法聚类精度保持在97%以上,运行效率提高了40%。  相似文献   

13.
图聚集技术是将一个大规模图用简洁的小规模图来表示,同时保留原始图的结构和属性信息的技术。现有算法未同时考虑节点的属性信息与边的权重信息,导致图聚集后与原始图存在较大差异。因此,提出一种同时考虑节点属性信息与边权重信息的图聚集算法,使得聚集图既保留了节点属性相似度又保留了边权重信息。该算法首先定义了闭邻域结构相似度,通过一种剪枝策略来计算节点之间的结构相似度;其次使用最小哈希(MinHash)技术计算节点之间的属性相似度,并调节结构相似与属性相似所占的比例;最后,根据2方面相似度的大小对加权图进行聚集。实验表明了该算法可行且有效。  相似文献   

14.
彭昂  王如龙  陈泉泉  张锦 《计算机应用》2010,30(7):1930-1932
针对电信客户的有效细分问题,利用属性相似度度量思想,提出了一种面向复杂属性的聚类算法。该算法用复杂属性分布相似度函数衡量对象的相似性,然后根据相似性建立图模型,最后对图进行分割进行聚类。相比于传统基于选维和降维的聚类分析算法,提出的算法能有效处理高维数据和复杂属性。同时,算法在参数调节时,不需遍历原始数据,也减少了人工干预。利用真实电信客户数据进行的模拟实验也表明,提出的算法具有良好性能,可以有效解决电信客户细分问题。  相似文献   

15.
一种基于本体的语义相似度算法研究   总被引:1,自引:0,他引:1  
赵永金  郑洪源  丁秋林 《计算机应用》2009,29(11):3074-3076
在研究目前比较经典的基于语义距离的相似度算法的基础上,通过分析语义概念的其他关键因子,增加了节点密度以及概念属性对语义相似度的影响,提出了一个更为规范的相似度算法。通过实验分析证明,改进后算法所得相似度值更加合理,在一定的调节参数下,与人类主观判断的兼容度比原始算法提高了约15%。  相似文献   

16.
为了解决单一聚类算法存在结果不准确和随机性大,且现有算法对分类数据聚类时将其装换成数值型会产生误差等问题,提出了一种面向分类属性数据的聚类融合算法。算法利用原有分类属性值的差异产生聚类成员,然后采用相似度方法进行划分,通过寻求目标函数最小的划分来简化聚类过程。算法在UCI数据集上进行了验证,结果表明算法的效率和精度都优于现有算法,说明算法的设计和更新策略是有效的。  相似文献   

17.
聚类分析是数据挖掘技术中的一类常见的方法。对于一类数值属性的挖掘,聚类之后,常出现所谓的孤立点。然而,有的孤立点其实并不孤立,它可能仍属于某个已确定的类,文章提出了一个基于属性之间相似关系的聚类分析方法,并对此进行了探讨。  相似文献   

18.
基于极值点特征的时间序列相似性查询方法*   总被引:2,自引:2,他引:2  
为了提高时间序列子序列匹配的准确度和效率,提出了基于极值点特征的时间序列相似性查询方法。首先识别出时间序列中的极值特征点,根据极值点使用多层次极值划分法对长序列进行划分;然后对划分得到的多层次子序列集使用改进的动态时间弯曲方法与查询序列进行相似性匹配;最后找到与查询序列最相似的子序列。实验表明,此方法在保证准确度的情况下大大提高了相似性搜索过程的效率。  相似文献   

19.
时间序列的相似性度量是时间序列分析的基础工作之一,是进行相似匹配的关键。针对欧几里德距离描述分段趋势的不足和各种模式距离对应分段之间距离值的离散化问题,提出一种基于形态相似距离的时间序列相似性度量方法,标准数据集上完成的识别和聚类实验表明了该方法的可行性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号