首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 90 毫秒
1.
2.
可处理混合属性的任意形状聚类   总被引:1,自引:1,他引:0       下载免费PDF全文
聚类是数据挖掘中一个非常活跃的研究分支,任意形状的聚类则是一个有待研究的开放问题。提出一种包含分类属性取值频率信息的类间差异性度量和一种对象与类的相似度定义,在此基础上提出一种能处理任意形状的聚类算法,可处理混合属性数据集。在人造数据集和真实数据集上检验了提出的算法,并与相关算法进行了对比,实验结果表明,提出的算法是有效可行的。  相似文献   

3.
为弥补属性空间聚类方法只关注对象属性信息以及结构聚类方法只关注对象间关系信息的不足,提出一种基于属性-关系综合相似度的聚类算法.在构建基于属性距离的有权网络后,算法给出对象间综合相似度以及类间综合相似度的计算方法,并设计相应策略自底向上实现聚类.与属性空间聚类和结构聚类方法相比,该算法由于兼顾了属性和关系信息而具有更高...  相似文献   

4.
将夹角余弦的概念推广到混合属性的数据,提出了一种基于相似度的聚类方法CABMS,同时给出了一种计算聚类阈值的简单有效的策略。有关CABMS数据库的大小,属性个数具有近似线性时间复杂度,使得聚类方法CABMS具有好的扩展性。实验结果表明,CABMS可产生高质量的聚类结果。  相似文献   

5.
针对数据集中属性间存在依赖关系以及对象间存在相关性,定义了一种新的相似关系模型,该模型所描述的相似关系能够体现对象之间的自然相关性.在此基础上提出一种基于属性依赖关系和对象相关性的自然聚类算法,该聚类算法在不事先指定聚类数目的情况下,将所有相似性达到设定阈值的对象自然聚为一类;当调整相似性阈值时,该算法还可实现不同粒度的聚类.通过分别对数值型数据集和分类型数据集进行实验比较分析,结果表明这种自然聚类算法与其他聚类算法相比,能够真实反映数据间的相关性以及数据集的自然簇结构,同时可以发现任意形状的簇,有效地提高了聚类的精度和质量.  相似文献   

6.
首先总结了链接挖掘中基于属性—链接聚类算法的研究现状;然后把它大体分为三类,对每一类中具有代表性的算法进行了详细介绍、分析和评价;最后指出了该领域进一步的研究方向。  相似文献   

7.
聚类分析是数据挖掘最常见的技术之一,数据的规模、维数和稀疏性都是制约聚类分析的不同方面.本文提出一种有效的高属性维稀疏数据聚类方法.给出稀疏相似度、等价关系的相似度、广义的等价关系的定义.基于对象间的稀疏相似度和等价关系原理形成初始等价类,通过等价关系的相似度修正初始等价关系,使得最终聚类结果更合理.该算法聚类过程不依赖于输入样本的排列顺序,高维稀疏数据的有效压缩提高算法在维数较高时的执行效率,适合于高维稀疏数据的聚类分析.  相似文献   

8.
余宏  万常选 《计算机工程》2010,36(1):85-86,90
针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传统方法。  相似文献   

9.
余宏  万常选 《计算机工程》2010,36(1):85-86,9
针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传统方法。  相似文献   

10.
属性图用属性向量描述节点,用边描述节点间的关系。为了把节点划分为具有紧密联系的社团,一种有效的方法是对属性图进行聚类。聚类方法有不同的标准,如节点连接度和属性相似度。虽然社团一般是围绕紧密的连边和相似的属性值的节点形成,但是目前的方法都只关注了这两种数据形式中的一种。通过给每个节点赋予一个自治域,提出一个准确且可延展的多节点系统用于提取属性图中的重叠社团。首先,引入带有可调带宽因子的核函数用于测度每个节点的影响力,具有最高局部影响力的节点可以被看作领导节点。其次,提出一种新颖的局部扩展策略,使每一个领导节点能够吸收属性图中相关性最强的跟随者。接着,设计了多节点社团意识系统,该系统为节点之间的充分沟通提供了必要的条件,从而能够得出最优的重叠社团结构。社团中的节点不仅互相联系紧密,而且也有相似的属性。该算法的计算复杂度在特定带宽条件下近似于连边数目的线性函数。最后,基于标准属性图和真实属性图的实验验证了该系统的有效性和高效性。  相似文献   

11.
12.
The rapid increase of user-generated content (UGC) is a rich source for reputation management of entities, products, and services. Looking at online product reviews as a concrete example, in reviews, customers usually give opinions on multiple attributes of products, therefore the challenge is to automatically extract and cluster attributes that are mentioned. In this paper, we investigate efficient attribute extraction models using a semi-supervised approach. Specifically, we formulate the attribute extraction issue as a sequence labeling task and design a bootstrapped schema to train the extraction models by leveraging a small quantity of labeled reviews and a larger number of unlabeled reviews. In addition, we propose a clustering By committee (CBC) approach to cluster attributes according to their semantic similarity. Experimental results on real world datasets show that the proposed approach is effective.  相似文献   

13.
基于树编辑距离的层次聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hi-erarchical Clustering Algorithm Based on Tree Edit Distance)。新算法通过树编辑操作使用最少的代价计算属性相似性,克服了传统聚类算法标称型计算的缺陷,提高了聚类精度,通过设定阈值对给定样本聚类。实验证明了新方法在身份识别上的准确性和有效性,讨论了不同参数对实验结果的影响,对比传统聚类算法,HCTED算法性能明显提高。新算法已经应用到警用流动人口分析中,取得了良好效果。  相似文献   

14.
张艳丽  郑诚 《微型机与应用》2011,30(3):64-66,72
提出一种基于属性分解的随机分组的改进方法,以提高聚类算法的稳定性和适用性。实验仿真结果表明,改进算法具有很好的稳定性和应用性。  相似文献   

15.
在属性网络中,与节点相关联的属性信息有助于提升网络嵌入各种任务的性能,但网络是一种图状结构,节点不仅包含属性信息还隐含着丰富的结构信息。为了充分融合结构信息,首先通过定义节点的影响力特性、空间关系特征;然后根据链接预测领域基于相似度的定义构建相似度矩阵,将节点二元组中的关联向量映射到相似度矩阵这一关系空间中,从而保留与节点相关的结构向量信息;再基于图的拉普拉斯矩阵融合属性信息和标签特征,将上述三类信息集成到一个最优化框架中;最后,通过二阶导数求局部最大值计算投影矩阵获取节点的特征表示进行网络嵌入。实验结果表明,提出的算法能够充分利用节点二元组的邻接结构信息,相比于其他基准网络嵌入算法,本模型在节点分类任务上取得了更好的结果。  相似文献   

16.
为融合节点描述信息提升网络表示学习质量,针对社会网络中节点描述属性信息存在的语义信息分散和不完备性问题,提出一种融合节点描述属性的网络表示(NPA-NRL)学习算法。首先,对属性信息进行独热编码,并引入随机扰动的数据集增强策略解决属性信息不完备问题;然后,将属性编码和结构编码拼接作为深度神经网络输入,实现两方面信息的相互补充制约;最后,设计了基于网络同质性的属性相似性度量函数和基于SkipGram模型的结构相似性度量函数,通过联合训练实现融合语义信息挖掘。在GPLUS、OKLAHOMA和UNC三个真实网络数据集上的实验结果表明,和经典的DeepWalk、TADW(Text-Associated DeepWalk)、UPP-SNE(User Profile Preserving Social Network Embedding)和SNE(Social Network Embedding)算法相比,NPA-NRL算法的链路预测AUC(Area Under Curve of ROC)值平均提升2.75%,节点分类F1值平均提升7.10%。  相似文献   

17.
一种新的复杂网络聚类算法   总被引:4,自引:2,他引:2  
揭示网络簇结构的复杂网络聚类方法研究具有重要的理论意义和应用价值。应用两种谱方法将复杂网络簇结构发现问题转换为空间数据聚类问题,并将粒子群聚类算法应用到对复杂网络簇结构的探测,提出了两种新的结合粒子群聚类的复杂网络簇结构探测算法。最后在两类复杂网络上进行实验并对实验结果进行了比较分析,提出的新算法在聚类准确性方面效果更好。  相似文献   

18.
为了解决传统聚类方法在多维数据集中聚类效果不佳的问题,提出了将网络社团划分的方法,并应用到多维数据聚类分析中。对于一个多维数据集,首先对分析对象进行特征提取,构建出每个对象的特征向量,通过计算皮尔森相关系数来度量不同特征向量之间的相似性,从而构建出一个相似性网络,采用Blondel算法对该网络进行社团划分达到聚类的效果。实验结果表明该方法可以在多维数据聚类中得到较好的聚类结果,准确率达到92.5%,优于K-means算法的75%。  相似文献   

19.
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。  相似文献   

20.
通过分析已有的基于统计和基于语义分析的文本相似性度量方法的不足,提出了一种新的基于语言网络和词项语义信息的文本相似度计算方法。对文本建立语言网络,计算网络节点综合特征值,选取TOP比例特征词表征文本,有效降低文本表示维度。计算TOP比例特征词间的相似度,以及这些词的综合特征值所占百分比以计算文本之间的相似度。利用提出的相似度计算方法在数据集上进行聚类实验,实验结果表明,提出的文本相似度计算方法,在F-度量值标准上优于传统的TF-IDF方法以及另一种基于词项语义信息的相似度量方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号