首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 197 毫秒
1.
层次聚类是一种重要的数据分析技术。传统的层次聚类方法大都采用欧式距离度量类之间相似度,不能有效处理类之间重合和类密度变化大的情况。文中提出一种基于贝叶斯和谐度的层次聚类方法,采用和谐度增幅代替传统层次聚类方法采用的欧式距离。贝叶斯和谐度取自于贝叶斯阴阳和谐学习理论,能衡量整个数据的分布情况和指导选择合适的类别数。文中方法根据和谐度的变化来度量类之间的相似度,能克服传统层次聚类的缺点;同时更易选择阈值终止层次聚类的合并,从而产生合适的类别数。最后通过两个实验验证文中方法的有效性。  相似文献   

2.
目前适用于犹豫模糊数据对象集的聚类算法研究仍然非常有限,现有的犹豫模糊数据对象集层次聚类算法受异常点影响较大且容易聚成链状.针对上述问题,本文首先提出了一种可扩展的犹豫模糊集的加权相似度计算方法,该方法不仅可以利用不同的函数计算相似度,而且可以根据实际问题构造最优的相似度函数.基于该加权相似度计算方法,结合经典的谱聚类算法提出了犹豫模糊数据对象集的谱聚类算法(SCHF).针对目前国内外还没有可用于犹豫模糊数据对象集聚类的标准数据集的现实情况,本文提出了一种确定性数据的犹豫模糊方法并在仿真实验中应用.仿真实验不仅验证了SCHF算法的有效性,而且表明SCHF算法比两种已知算法有更好的聚类效果.  相似文献   

3.
一种新的聚类有效性函数   总被引:2,自引:1,他引:2       下载免费PDF全文
聚类有效性函数是用于评价聚类结果优劣的指标,准确地给出初始聚类类别数将使得聚类结果趋于合理化。根据模糊不确定性理论及聚类问题的基本特性,引入了新的紧密度度量指标DiU;c),在此基础上提出了一个旨在寻求最优聚类类别数的有效性函数。该函数基于数据集的紧密度与分离度特征,综合考虑了数据成员的隶属度及数据集的几何结构。实验结果表明该有效性函数能够发现最优的聚类类别数,对于分类结构较为明确的数据集表现出良好的性能,并且对于权重系数具有良好的鲁棒性。  相似文献   

4.
一种Web用户行为聚类算法   总被引:13,自引:0,他引:13  
提出了一种新的路径相似度系数计算方法,并使之与雅可比相似系数结合,用于计算用户访问行为的相似度,在此基础之上又提出了一种分析web用户行为的聚类算法(FCC)。通过挖掘Web日志,找出具有相似行为的web用户,由于FCC聚类算法过滤了小于指定阚值的相似度系数,大大缩小了数据规模,很好地解决了其他聚类算法(如层次聚类)在高堆空间聚类时的“堆数灾难”问题,最后的实验结果很好。  相似文献   

5.
针对如何更准确地分析校园无线网络数据中隐藏的社交关系亲密度, 本文提出了改进DBSCAN时空聚类算法. 首先, 通过采集校园无线网络数据, 在根据学生连接WiFi的地点, 时间等信息形成时空轨迹. 运用改进的算法对时空轨迹聚类. 其次, 对聚类结果进行特征轨迹提取, 运用LCSS算法进行相似性对比, 轨迹间相似度越高说明关系比较亲密; 相似度越低, 可能是较孤僻的学生, 老师需要进一步排查和引导教育. 最后, 运用FinBI对轨迹聚类结果可视化展示. 实验结果表明, 该算法提高了聚类结果的准确性和有效性, 为解决其他相似性问题提供思路.  相似文献   

6.
为解决轨迹聚类问题,提出一种新的无监督轨迹聚类及聚类有效性评估方法。通过建立双层字符串轨迹模型,计算得到轨迹间距离并用作聚类依据。提出轨迹同距点比例的概念,以此作为聚类工具,并采用类内平均同距点比例作为聚类有效性评价值。利用麻省理工大学(Massachusetts Institute of Technology,MIT)停车场行人路径数据集进行实验,实验结果表明,新的无监督聚类算法能较好地完成轨迹聚类任务,平均类内同距点比例能够很好地衡量分类效果。  相似文献   

7.
针对传统协同过滤推荐算法没有充分考虑用户属性及项目类别划分等因素对相似度计算产生的影响,存在数据稀疏性,从而导致推荐准确度不高的问题.提出一种基于用户属性聚类与项目划分的协同过滤推荐算法,算法对推荐准确度有重要影响的相似度计算进行了充分考虑.先对用户采用聚类算法以用户身份属性聚类,进而再对项目进行类别划分,在相似度计算中增加类别相似度,考虑共同评分用户数通过加权系数进行综合相似度计算,最后结合平均相似度,采用阈值法综合得出最近邻.实验结果表明,所提算法能够有效提高推荐精度,为用户提供更准确的推荐项目.  相似文献   

8.
实时视频中的车辆运动轨迹的提取和聚类   总被引:1,自引:0,他引:1       下载免费PDF全文
利用运动物体轨迹的方向性、运动性和相互关系等典型特征对物体的运动轨迹进行聚类。首先利用改进的加权矢量Hausdorff距离作为度量运动物体轨迹相似度的方法,从而使之适用于空间距离有差别的运动物体轨迹的谱聚类问题;然后基于等周分割(ISO)算法,构造轨迹相似度矩阵,完成轨迹的粗聚类;最后利用轨迹的方向性特征和轨迹类间距对轨迹进行二次聚类,得到最终的轨迹聚类结果。  相似文献   

9.
针对结构稀疏子空间聚类不能很好地把握数据相似度一致性的问题,提出一种新的子空间聚类优化模型;结构加权相关自适应子空间聚类(Structured Weighted Correlation Adaptive Subspace Clustering,SWCASC)模型。该模型引入数据点的相关性对表示系数施加显式惩罚,同时利用分割和相似度的依赖关系,引入子空间结构范数。该模型使得数据类别标签具有一致性,相似度矩阵具有稀疏性和一致性,并具有自适应性。相似度矩阵的稀疏性有利于将不同子空间的数据分离,而一致性有利于将同一子空间的数据聚集。实验结果表明,该模型获得了理想的聚类效果,并优于其他方法。  相似文献   

10.
聚类分析是数据挖掘中一种非常重要的技术.聚类算法中的关键问题是相异度或相似度的度量,聚类结果直接依赖于相异度或相似度度量,尤其对于谱聚类方法更是如此.谱聚类算法是近期兴起的一种基于相似度矩阵的聚类算法.相比于传统的划分型聚类算法,谱聚类算法不受限于球状聚类簇,能够发现不规则形状的聚类簇.在已有的谱聚类算法中,高斯核相似度是最常用的相似度度量准则.基于高斯核相似度度量及其扩展形式,提出了一种加权的自适应的相似度度量,此相似度可以用于谱聚类以及其他基于相似度矩阵的聚类算法.新的相似度度量不仅能够描述多密度聚类簇中数据点间的相似度,而且可以降低离群点(噪声点)与其他数据点间的相似度.实验结果显示新的相似度度量可以更好地描述不同类型的数据集中数据点间的相似度,进而得到更好的聚类结果.  相似文献   

11.
Spatial clustering analysis is an important issue that has been widely studied to extract the meaningful subgroups of geo-referenced data. Although many approaches have been developed in the literature, efficiently modeling the network constraint that objects (e.g. urban facility) are observed on or alongside a street network remains a challenging task for spatial clustering. Based on the techniques of mathematical morphology, this paper presents a new spatial clustering approach NMMSC designed for mining the grouping patterns of network-constrained point objects. NMMSC is essentially a hierarchical clustering approach, and it generally consists of two main steps: first, the original vector data is converted to raster data by utilizing basic linear unit of network as the pixel in network space; second, based on the specified 1-dimensional raster structure, an extended mathematical morphology operator (i.e. dilation) is iteratively performed to identify spatial point agglomerations with hierarchical structure snapped on a network. Compared to existing methods of network-constrained hierarchical clustering, our method is more efficient for cluster similarity computation with linear time complexity. The effectiveness and efficiency of our approach are verified through the experiments with real and synthetic data sets.  相似文献   

12.
在大数据环境下,从海量的互联网数据中获取热点话题是研究当前互联网中民意民情的基础,其中文本聚类是得到热点话题最常用的方法之一,可以分为文本向量化表示和聚类2个步骤。然而在文本向量化表示任务中,传统的文本表示模型无法准确表示新闻、帖文等文本的上下文语境信息。在聚类任务中,最常使用的是K-Means算法和DBSCAN算法,但是它们对数据的聚类方式与实际中话题数据的分布不符,这使得现有的文本聚类算法在实际的互联网环境中应用效果很差。本文根据互联网中话题的数据分布情况,提出一种基于RoBERTa-WWM和HDBSCAN的文本聚类算法。首先利用预训练语言模型RoBERTa-WWM得到每一篇文本的文本向量,其次利用t-SNE算法对高维文本向量进行降维,最后利用基于层次的密度聚类算法的HDBSCAN算法对低维的文本向量进行聚类。实验结果表明提出的算法相较于现有的文本聚类算法,在含有噪声数据且分布不均衡的数据集上,聚类效果有很大的提升。  相似文献   

13.
提出一种新的动态模糊聚类的方法,针对传统的模糊聚类需要预先确定聚类数的问题,提出采用动态自组织映射神经网络来确定聚类数,并通过文本向量空间模型和TF-IDF方法来确定文本的特征向量,再将动态自组织映射神经网络得到的聚类数,用模糊C均值算法(FCM)函数处理,得到聚类的结果。该算法同仅用动态自组织映射神经网络算法的运行结果相比,具有运行聚类结果精度高的优点,模糊聚类更适合处理语义的多样性和文本归属的模糊性,实验验证了算法的有效性。  相似文献   

14.
针对传统Mashup服务推荐算法在关键字聚合搜索和网络构建等方式中计算复杂度过高的问题,提出一种基于语义标签的植入引导式层次聚类Mashup服务推荐算法。首先,为提高聚类算法的收敛精度,提高算法运行效率来满足大型数据搜索对算法简化的需求,采用数据预处理和植入易于获取具有代表性的样本数据对聚类进行引导,防止层次聚类算法顶层集分类失败导致的算法聚类失败。其次,利用改进的聚类算法结合实际的Mashup服务数据库,设计了植入引导式层次聚类Mashup服务推荐算法。最后,通过通过仿真对比表明,基于语义的植入式半监督层次聚类Mashup服务推荐算法的精度要好于对比算法,验证所提算法的有效性。  相似文献   

15.
遥感图像非监督计算机分类方法的研究   总被引:1,自引:1,他引:0  
通过对几种常用的非监督计算机遥感图像分类方法,如k-means、层次聚类和神经网络的分析研究发现,由于这些方法不能克服数据噪声点的影响,输出结果对输入参数依赖性较大,使其对图像的分类效果受到影响。为了提高图像的非监督分类效果。本文提出了一种基于密度和自适应密度可达聚类算法。实验分析表明,与常用的分类方法相比,该算法具有良好的分类效果。  相似文献   

16.
关于网页聚类的研究已经提出多种基于文本—链接模型的聚类算法,其中应用最广泛的便是MS模型。针对MS模型在效率和计算精度方面的不足,提出了改进的TLMS模型。新模型通过将词聚成词簇、链接向量聚成链接簇的方法将MS模型的词空间和链接空间进行大幅的压缩,并应用近邻传播算法替代传统的K-means算法对网页进行聚类。实验证明,TLMS模型+近邻传播算法聚类精度高、执行效率好。  相似文献   

17.
宋涛  王星 《计算机应用》2016,36(7):1904-1908
银行卡支付在社会消费行为中占很大比例,在促进经济增长中发挥重大作用,因此,预测持卡消费行为具有重要意义。然而,传统方法难以有效应对复杂数据和动态变化。为此,提出基于二次聚类和隐马尔可夫链(HMC)理论的个体消费行为预测方法。首先,对消费行为按照序列进行模式聚类,并引入惩罚聚类进行二次聚类,对序列模式中的层次状态进行平衡划分;其次,利用HMC来估计序列中消费层次的状态转移,对用户的未来消费行为进行预测。最后,通过实验比较分析传统聚类、无惩罚序列聚类和带惩罚项的聚类结果表明,提出的基于二次聚类和隐马氏链的方法更适用于消费者行为预测。  相似文献   

18.
一种新的分裂层次聚类SVM多值分类器   总被引:6,自引:0,他引:6  
张国云  章兢 《控制与决策》2005,20(8):931-934
提出一种分裂层次聚类SVM分类树分类方法.该方法通过融合模糊聚类技术和支持向量机算法,利用分裂的层次聚类策略,有选择地重新构造学习样本集和SVM子分类器,得到了一种树形多值分类器.研究结果表明,对于k类别模式识别问题,该方法只需构造k-1个SVM子分类器,克服了SVM子分类器过多以及存在不可区分区域的缺点,具有良好的分类性能.实验结果验证了该方法的优越性.  相似文献   

19.
一种改进Hausdorff距离和谱聚类的车辆轨迹模式学习方法   总被引:1,自引:0,他引:1  
为了对交通监控视频中的异常行为进行检测,需要对车辆的运动轨迹进行分析,但由于噪声、遮挡等原因,不可能获得完整的运动轨迹,导致分析结果不准确。针对此类问题,提出基于改进Hausdorff距离和谱聚类的轨迹聚类方法,首先对提取到的轨迹进行预处理,然后利用改进的Hausdorff距离进行轨迹相似度度量,最后通过谱聚类方法对距离矩阵进行聚类,得到符合实际情况的聚类结果。实验结果表明,该方法具有较好的鲁棒性和有效性。  相似文献   

20.
针对偏置环境下图像分割问题,提出了一种基于偏置场估计的模糊聚类算法。通过建立依赖于偏置场的模糊聚类目标函数,提出了模糊聚类隶属函数和偏置场估计的迭代算法。该方法较好地处理了传统模糊聚类在偏置场存在的情况下图像分割精度下降问题。实验结果表明,该算法能有效分割具有偏置噪声的图像,其分割精度优于传统模糊聚类法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号