首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
在Web行为挖掘中,序列模式聚类是一个很重要的课题,其首要问题就是web序列模式间的相似性度量.以往的多数方法都仅仅针对序列本身进行度量,而忽略了系统中资源本身所存在的关联关系以及用户对资源访问的时间因素.针对该问题,提出了一种基于考虑资源相似性的web访问序列模式的相似度量方法,并且考虑了用户访问资源的时间因素.经过检验,证明能够有效真实地反映实际情况.  相似文献   

2.
王超  杨静  张健沛 《通信学报》2015,36(2):144-157
为了降低轨迹数据发布产生的隐私泄露风险,提出了多种轨迹匿名算法。然而,现有的轨迹匿名算法在计算轨迹相似性时忽略了轨迹的形状因素对轨迹相似性的影响,因此产生的匿名轨迹集合的可用性相对较低。针对这一问题,提出了一种新的轨迹相似性度量模型,在考虑轨迹的时间和空间要素的同时,加入了轨迹的形状因素,可以在多项式时间内计算定义在不同时间跨度上的轨迹的距离,能够更加准确、快速地度量轨迹之间的相似性;在此基础上,提出了一种基于轨迹位置形状相似性的隐私保护算法,最大限度地提高了聚类内部轨迹的相似性,并且使用真实的原始位置信息形成数据"面罩",满足了轨迹k-匿名,在有效地保护轨迹数据的同时,提高了轨迹数据的可用性;最后,在合成轨迹数据集和真实轨迹数据集上的实验结果表明,本算法花费更少的时间代价,具有更高的数据可用性。  相似文献   

3.
基于形态的时间序列相似性度量研究   总被引:8,自引:0,他引:8  
时间序列重新描述和相似性度量是时间序列数据挖掘的研究基础,对提高挖掘任务的效率和准确性至关重要。该文提出了一种新的基于形态的时间序列符号描述,并给出相应的距离公式,以度量时间序列的相似性。该方法直观简洁,对数据的平移、伸缩不敏感,能够反映序列趋势变化的程度、去除噪声的影响,满足时间多分辨率要求。仿真结果表明,该方法具有较好的聚类性能,可以在不同分辨率下有效度量时间序列的形态相似性。  相似文献   

4.
以提高云平台系统的利用率为出发点,在分析云系统使用模式和用户事件特征的基础上,建立了资源优化模型对用户使用事件和资源请求行为建模。从用户事件进行时间序列划分,用户特征的相似性计算以及资源相似性度量三个方面对优化模型进行描述,设计并应用基于阈值的资源相似性度量算法实施优化,并对优化结果进行了分析验证。  相似文献   

5.
符号化时间序列聚类是聚类研究中的热点之一,其中关键问题是时间序列符号化相似度问题.本文针对传统的基于欧式距离度量存在的缺陷,以LCS度量为基础,提出了ELCS相似性度量,克服了LCS度量需要依赖线性函数选取的不足.在两类数据集上进行的实验表明,同其他常用度量的比较,该度量有着更好的聚类效果.  相似文献   

6.
可变相似性度量的近邻传播聚类   总被引:10,自引:0,他引:10  
近邻传播(AP)聚类算法面临的一个问题是不适用于多重尺度及任意空间形状的数据聚类处理。该文从数据分布特性的表征出发,提出了一种改进的近邻传播聚类算法AP-VSM (Affinity Propagation based on Variable-Similarity Measure)。首先,综合数据的全局与局部分布特性,设计了一种数据可变相似性度量计算方法,该度量可以有效地反映数据实际聚类的分布特性;然后在传统AP算法框架基础上,构造出基于可变相似性度量的近邻传播聚类算法,从而拓展了传统AP算法的数据处理能力。仿真实验验证了新方法性能优于传统AP算法。  相似文献   

7.
针对模糊C均值(FCM)聚类算法在数据集下聚类效果差的情况,以及基于欧氏距离的相似性度量只考虑数据点之间的局部一致性问题,提出了基于Jeffery散度相似性度量加权FCM聚类算法(JW-FCM).引入源于Jeffery散度的相似性度量,首先,对于FCM算法进行特征加权,对数据的不同特征值赋予适当的权重,再将Jeffer...  相似文献   

8.
序列相似性分析是生物信息学中一个重要问题,对于研究物种的进化起源有着重要的意义。序列相似性算法包括基于序列比对的方法及非比对方法两种。基于比对的方法对于序列整体的衡量略有欠缺;非比对算法中有DNA曲线化方法以及比较序列各自整体碱基分布间的信息量差异的方法,只是考虑了序列整体信息间的差异,但未考虑序列各个位点间的差异。因此,提出了一种基于信息熵的相似性度量模型,把序列比对与信息量差异结合起来,将两条比对后的序列间的平均交互信息量与其联合熵之比作为两条序列的相似性度量。使用该度量构建了11个物种的相似性矩阵,对各物种间的相似性进行了分析,结果在一定程度上与生物分类学相契合。通过距离矩阵所构建的进化树,也反映了各物种间的进化关系,表明该模型的设计具有合理性。  相似文献   

9.
面向数据挖掘的时间序列符号化方法研究   总被引:20,自引:1,他引:20  
针对时间序列的数据挖掘首先需要将时间序列(Time Series)数据转换为离散的符号序列(Symbol Sequences),本文提出了一个简单高效的时间我符号化方法,该方法的特点:一是利用线性化分段表示法所独有的形态分割与表达能力实现了时间序列的分段与表示:二是利用神经网络模糊聚类算法实现了时间序列的在线聚类。提出以矢量间开矿相似性度量作为聚类依据。并利用该方法实现了对金融领域时间序列数据的符  相似文献   

10.
聚类分析是时间数据序列分析的一种常用手段,现有的聚类算法通常从相似性度量方面进行改进.实际的时间序列数据往往具有一定的周期性和连续性,现有的算法往往忽略时间序列数据周期性和连续性特点对聚类算法的影响.对此问题进行了研究,尝试采用延拓的方法来解决该问题,从而改善聚类的效果.初步的实验结果表明了该方法的可行性和有效性.  相似文献   

11.
Pattern discovery from time series is of fundamental importance. Most of the algorithms of pattern discovery in time series capture the values of time series based on some kinds of similarity measures. Affected by the scale and baseline, value-based methods bring about problem when the objective is to capture the shape. Thus, a similarity measure based on shape, Sh measure, is originally proposed, and the properties of this similarity and corresponding proofs are given. Then a time series shape pattern discovery algorithm based on Sh measure is put forward. The proposed algorithm is terminated in finite iteration with given computational and storage complexity. Finally the experiments on synthetic datasets and sunspot datasets demonstrate that the time series shape pattern algorithm is valid.  相似文献   

12.
一种基于距离调节的聚类算法   总被引:2,自引:1,他引:1  
针对k-means算法不适合凹形样本空间的问题,提出了一种基于距离调节的聚类算法.算法中引入了一种调节最短路径距离作为算法的相似度函数,该函数可以使经过高密度数据区域的两点距离缩短,而经过低密度数据区域的两点距离加长,由此来缩小类间样本的相似度,同时加大类间的相似度,以及更好的聚类.实验结果证明,该算法对凹状的聚类样本空间具有很好的聚类效果.  相似文献   

13.
基于弧度距离的时间序列相似度量   总被引:2,自引:0,他引:2  
时间序列的近似表示和相似度量是时间序列数据挖掘的重要任务之一,是进行相似匹配的关键。该文针对现有的各种基于分段线性表示(Piecewise Linear Representation,PLR)相似度量方法存在的序列长度依赖和多分辨率条件下的潜在识别误差等缺点,提出了一种序列分段线性弧度表示和基于弧度距离的相似度量方法,实现了序列的快速在线分割和相似度计算。该方法简洁直观,利用分段弧度对分段趋势进行细粒度划分来保留序列主要形态特征,有效地提高了度量结果的准确性和多分辨率条件下的稳定性。该方法具有序列分割算法独立性特点,可用于时间序列的相似查询、模式匹配、分类和聚类。  相似文献   

14.
网络用户随时间变化的行为分析是近年来用户行为分析的热点,通常为了发现用户行为的特征需要对用户做聚类处理。针对用户时序数据的聚类问题,现有研究方法存在计算性能差,距离度量不准确的缺点,无法处理大规模数据。为了解决上述问题,该文提出基于对称KL距离的用户行为时序聚类方法。首先将时序数据转化为概率模型,从划分聚类的角度出发,在距离度量中引入KL距离,用以衡量不同用户间的时间分布差异。针对实网数据中数据规模大的特点,该方法在聚类的各个环节针对KL距离的特点做了优化,并证明了一种高效率的聚类质心求解办法。实验结果证明,该算法相比采用欧式距离和DTW距离度量的聚类算法能提高4%的准确度,与采用medoids聚类质心的聚类算法相比计算时间少了一个量级。采用该算法对实网环境中获取的用户流量数据处理证明了该算法拥有可行的应用价值。  相似文献   

15.
针对迁移聚类问题,该文提出一种新的基于Kullback-Leiber距离的迁移仿射聚类算法(TAP_KL)。该算法从概率角度重新解释AP算法的目标函数,并借助于信息论中最常见的一种距离度量,即Kullback-Leiber距离,测量源域与目标域代表点的相似性。另外,通过详细分析TAP_KL算法与AP算法的目标函数,得出一个重要结论,即可以将源域与目标域的相似性嵌入到目标域数据集相似性矩阵的计算中,从而直接利用AP算法的优化算法优化TAP_KL算法的目标函数,解决基于代表点的迁移聚类问题。最后,通过基于4个数据集的仿真实验,进一步验证了TAP_KL算法在解决迁移聚类问题时的有效性。  相似文献   

16.
密度敏感的谱聚类   总被引:13,自引:2,他引:13       下载免费PDF全文
王玲  薄列峰  焦李成 《电子学报》2007,35(8):1577-1581
谱聚类是近来出现的一种性能极具竞争力的聚类方法,它的成功很大程度依赖于相似性度量的选择.本文通过分析这一性质并结合数据聚类特性,提出一种数据依赖的相似性度量--密度敏感的相似性度量.该相似性度量可以有效描述数据的实际聚类分布.将其引入谱聚类得到密度敏感的谱聚类算法.与原有的谱聚类算法相比,新算法不仅能够处理多尺度聚类问题,而且对参数选择相对不敏感.算法有效性分析以及实验验证了所提算法的有效性和可行性.  相似文献   

17.
Most hyper‐ellipsoidal clustering (HEC) approaches use the Mahalanobis distance as a distance metric. It has been proven that HEC, under this condition, cannot be realized since the cost function of partitional clustering is a constant. We demonstrate that HEC with a modified Gaussian kernel metric can be interpreted as a problem of finding condensed ellipsoidal clusters (with respect to the volumes and densities of the clusters) and propose a practical HEC algorithm that is able to efficiently handle clusters that are ellipsoidal in shape and that are of different size and density. We then try to refine the HEC algorithm by utilizing ellipsoids defined on the kernel feature space to deal with more complex‐shaped clusters. The proposed methods lead to a significant improvement in the clustering results over K‐means algorithm, fuzzy C‐means algorithm, GMM‐EM algorithm, and HEC algorithm based on minimum‐volume ellipsoids using Mahalanobis distance.  相似文献   

18.
传统谱聚类算法在构造相似度矩阵时,高斯核函数参数选取的无规律性会对聚类结果造成严重影响。针对的这一缺陷,提出一种基于密度均值的谱聚类算法。与传统算法不同,该算法选取样本点到周围K个样本点的平均距离作为尺度参数,并引入样本点的密度信息,使得聚类结果更符合实际样本的分布。同时,由于相似矩阵能自适应不同的局部密度,使得该算法对样本的空间分布并不敏感。在不同类型数据集上的实验验证了算法的有效性和较高的鲁棒性。  相似文献   

19.
In order to make up for the defect that the traditional spectral clustering algorithm cannot determine the number of clusters and the time-consuming calculation, this paper studies and improves the spectral clustering algorithm. In complex community networks, the spectral clustering algorithm based on modularity optimization is chosen to find the number of communities. In addition, four types of user attribute information are integrated, and a more reasonable user similarity model is constructed. At the same time, the original non-parallelized spectral clustering algorithm is optimized, and its improved scheme is suitable for the application of distributed computing. Many Hadoop optimization strategies are proposed for virtual community discovery scenarios in large-scale communities. Finally, the experimental results show that the efficiency of the parallelized spectral clustering algorithm is greatly improved, which can be applied to the virtual community discovery in large-scale social networks.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号