首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 599 毫秒
1.
点击流数据是分析互联网用户心理倾向的关键,互联网用户的聚类可以通过分析点击流数据实现. 本文提出了一种基于向量的相似度计算方法,将点击流数据转化为向量数据. 通过对向量的计算来得出聚类的结果. 算法克服了传统的聚类算法的一些缺点,更能符合研究人员研究Web点击流数据时关于个性化聚类的要求.  相似文献   

2.
基于整体和局部相似性的序列聚类算法   总被引:1,自引:0,他引:1  
戴东波  汤春蕾  熊赟 《软件学报》2010,21(4):702-717
现有的很多序列聚类算法是基于“局部特征可以表征整个序列”的假设来进行的,即不区分实际应用中序列的整体相似性和局部相似性.这对存在保守子模式的序列,如DNA和蛋白质序列是适用的,但对一些注重整体序列相似性的应用领域,如:在交易数据库中用户购买行为的比较,时间序列数据中全局模式的匹配等,由于难以产生频繁子模式,用基于全局相似性的度量方法进行聚类显得更为合理.此外,在基于局部相似性的序列聚类算法中,选取的局部子模式表征序列的能力也有待进一步提高.由此,针对不同应用领域,分别提出基于整体相似性的序列聚类算法GSClu和基于局部相似性的序列聚类算法LSClu.GSClu和LSClu分别利用带剪枝策略的二分k均值算法和基于有gap约束的强区分度子模式方法对各自领域的序列数据进行聚类.实验采用交易序列数据和蛋白质序列数据,实验结果表明,GSClu和LSClu对各自领域的序列数据具有较快的处理速度和良好的聚类质量.  相似文献   

3.
基于形态特征的数据流聚类方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
吴学雁  黄道平 《计算机工程》2011,37(13):46-48,51
在聚类过程中为保留数据的重要形态与趋势特征,提出一种基于形态特征的数据流聚类方法。在初始化阶段提取重要特征点表示序列分段,在在线更新阶段使用部分动态时间弯曲方法计算子序列距离,基于动态滑动窗口思想保证多条数据流中数据的同步,在用户触发聚类阶段提出数据流聚类方法。通过对仿真数据和实际股票数据的分析结果表明,在参数设置合理的情况下,该方法可以获得接近0.95的聚类演化精度。  相似文献   

4.
ESSK:一种计算点击流相似度的新方法   总被引:1,自引:0,他引:1  
用户点击流信息被广泛应用于Web使用信息挖掘中。点击流相似度常用于用户会话分类和聚类。SSK(String Subsequence Kernel)最初被用于计算字符串相似度,后被引入计算点击流相似度,并成为目前常用方法之一。SSK选择两个字符串所有长度为k的子序列生成特征空间。单一k的选择往往存在特征数不足的问题,从而难以获得足够精确的点击流相似度。因此,提出一种新的点击流相似度计算方法ESSK(Extended String Subsequence Ker-nel)。ESSK采用所有子序列生成特征空间以解决SSK存在的问题。同时提出一种高效计算ESSK的算法,以降低计算复杂度。实验表明,ESSK比SSK更精确,比其它方法具有更高的区分度,因此更适合点击流相似度分析和应用。  相似文献   

5.
程舒通 《微机发展》2007,17(9):18-20
用户在访问Web站点时会碰到很多问题,主要原因是Web站点对用户需求缺乏适应性。为了提高Web用户的服务质量和用户的满意度,在用户访问网站点击流形成频繁序列模式的基础上,提出基于距离函数的聚类分析以及基于时间相似度函数的二次聚类分析算法。该算法可以求取频繁序列的相关性和反映用户对网页的兴趣的相似度,对下一步改善Web站点的结构及存在形式使站点达到更好的效果起先导作用。  相似文献   

6.
用户在访问Web站点时会碰到很多问题,主要原因是Web站点对用户需求缺乏适应性。为了提高Web用户的服务质量和用户的满意度,在用户访问网站点击流形成频繁序列模式的基础上,提出基于距离函数的聚类分析以及基于时间相似度函数的二次聚类分析算法。该算法可以求取频繁序列的相关性和反映用户对网页的兴趣的相似度,对下一步改善Web站点的结构及存在形式使站点达到更好的效果起先导作用。  相似文献   

7.
虚拟空间中在线同源用户具有相似行为特征,但现有相似性度量算法难以对其进行有效识别。提出一种基于序列对齐的在线同源用户识别算法,根据在线用户行为日志提取点击流数据,采用序列对齐方法计算在线用户的行为相似度,将其用行为相似度矩阵表示并对用户进行层次聚类,以识别虚拟空间中的在线同源用户,同时分析不同维度的用户特征属性对用户行为相似性的影响程度。实验结果表明,该算法能准确识别出在线同源用户,用户行为相似性受性别、户籍和教育程度3种特征属性影响较大,受年龄、社会阶层和收入水平的影响较小。  相似文献   

8.
围绕基于用户点击数据的文本聚类展开研究。利用点击数据将查询文本表征为图像点击特征图,并在此上训练深度点击模型。为了应对文本噪声,引入可刻画文本可靠性的权重,提出基于弱监督深度学习的文本聚类算法来迭代更新文本权重和深度模型。将该算法应用于基于点击特征的图像识别中,通过合并相似文本,为图像构建紧凑的文本集点击特征向量,实现高效的图像识别。在Clickture-Dog和Clickture-Bird两个公开点击数据集上进行验证,结果表明:用图像点击特征图来表征查询文本可有效解决原始点击特征向量的稀疏和不连续性,帮助获得优秀识别率;弱监督深度聚类模型不仅帮助学习强大的文本表征,还能有效选择高质量文本数据训练模型,进一步提高性能。  相似文献   

9.
《计算机工程》2018,(1):219-225
研究用户学习网页点击流数据,挖掘用户兴趣,从而为用户进行个性化学习资源推荐,提出JMATRIX算法。基于用户历史资源点击流信息,构建用户资源点击数据有向图模型,并将有向图模型转化为矩阵模型存储。采用求解矩阵模型相似度,从而求得用户相似度,极大地降低了资源点击频率和资源点击路径用户相似度求解的复杂度,提高用户相似度求解的效率与准确度。结合Leader Clustering算法及粗糙集理论进行用户聚类和用户个性化资源推荐。实验结果表明,相比Leader Clustering算法,JMATRIX算法具有更高的效率和更准确的推荐效果。  相似文献   

10.
与在所有特征空间寻找聚类不同,子空间聚类的目标是找到嵌在不同子空间的簇,是实现高维数据聚类的有效途径.传统聚类算法主要采用基于距离测量的方法进行聚类,难以处理高维数据.提出一种能够处理高维数据的子空间聚类算法(Attribute relevancy-based subspace clustering algorithm,ARSUB),将属性转化为频繁模式中的项集,将聚类问题转化为频繁模式挖掘问题,然后基于项目对间强相关的关系建立关系矩阵,以衡量任意两个项集之间的相关度,进而得到强相关的候选子空间.最后利用候选子空间进行聚类得到存在于不同子空间中的簇.在合成数据集与真实数据集的实验结果表明,这种方法具有较高的准确度和效率.  相似文献   

11.
This paper presents the development of soft clustering and learning vector quantization (LVQ) algorithms that rely on multiple weighted norms to measure the distance between the feature vectors and their prototypes. Clustering and LVQ are formulated in this paper as the minimization of a reformulation function that employs distinct weighted norms to measure the distance between each of the prototypes and the feature vectors under a set of equality constraints imposed on the weight matrices. Fuzzy LVQ and clustering algorithms are obtained as special cases of the proposed formulation. The resulting clustering algorithm is evaluated and benchmarked on three data sets that differ in terms of the data structure and the dimensionality of the feature vectors. This experimental evaluation indicates that the proposed multinorm algorithm outperforms algorithms employing the Euclidean norm as well as existing clustering algorithms employing weighted norms.  相似文献   

12.
章曼  张正军  冯俊淇  严涛 《计算机应用》2022,42(6):1914-1921
针对基于快速搜索和发现密度峰值的聚类(CFSFDP)算法中截断距离需要人工选取,以及最近邻分配带来的误差导致的在具有不同密度簇的复杂数据集上的聚类效果不佳的问题,提出了一种基于自适应可达距离的密度峰值聚类(ARD-DPC)算法。该算法利用非参数核密度估计方法计算点的局部密度,根据决策图选取聚类中心,并利用自适应可达距离分配数据点,从而得到最终的聚类结果。在4个合成数据集和6个UCI数据集上进行了仿真实验,将所提算法ARD-DPC与基于快速搜索和发现密度峰值的聚类(CFSFDP)、基于密度的噪声应用空间聚类(DBSCAN)、基于密度自适应距离的密度峰聚类(DADPC)算法进行了比较,实验结果表明,相比其他三种算法,ARD-DPC算法在7个数据集上的标准化互信息(NMI)、兰德指数(RI)和F1-measure取得了最大值,在2个数据集分别取得F1-measure和NMI的最大值,只对模糊度较高、聚类特征不明显的Pima数据集聚类效果不佳;同时,ARD-DPC算法在合成数据集上能准确地识别出聚类数目和具有复杂密度的簇。  相似文献   

13.
Clickstreams are visitors' paths through a Web site. Analysis of clickstreams shows how a Web site is navigated and used by its visitors. Clickstream data of online stores contains information useful for understanding the effectiveness of marketing and merchandising efforts, such as how customers find the store, what products they see, and what products they purchase. In this paper, we present an interactive visualization system that provides users with greater abilities to interpret and explore clickstream data of online stores. This system visualizes the effectiveness of Web merchandising from two different points of view by using two different visualization techniques: visualization of sessions by using parallel coordinates and visualization of product performance by using starfield graphs. Furthermore, this system provides facilities for zooming, filtering, color-coding, dynamic querying and data sampling. It also provides summary information along with visualizations, and by maintaining a connection between visualizations and the source database, it dynamically updates the summary information. To demonstrate how the presented visualization system provides capabilities for examining online store clickstreams, we present a series of parallel coordinates and starfield visualizations that display clickstream data from an operating online retail store. A framework for understanding Web merchandising is briefly explained. A set of metrics referred to as micro-conversion rates, which are defined for Web merchandising analysis in our previous work (Lee et al., Electronic Markets, 2000), is also explained and used for the visualizations of online store effectiveness.  相似文献   

14.
针对图像特征匹配过程中采集图像易受噪声、光照、尺度等因素影响使产生的匹配结果鲁棒性差、误匹配率高等问题,提出一种基于加权相似性度量(WSM)的特征匹配方法。该方法首先采用基于网格多密度聚类的特征匹配(FM_GMC)算法对原始图像进行特征聚类块划分;其次在每一特征聚类块中,采用Canny提取边缘特征点并使用尺度不变特征变换(SIFT) 进行描述;然后采用加权的方式对特征聚类块之间的空间上下文信息间的Hausdorff距离、图像特征点外观描述子间的欧氏距离以及图像特征点的局部几何灰度信息的归一化互相关度量(NCC)进行相似性度量;最后依据最近邻距离比值(NNDR)对相似性度量结果进一步优化,从而确定特征匹配结果。以古建筑图像为数据集的实验结果表明WSM方法的平均匹配精确率达到92%,在匹配数量和精确率上优于常用的特征匹配方法,验证了该方法的有效性和鲁棒性。  相似文献   

15.
The first stage of knowledge acquisition and reduction of complexity concerning a group of entities is to partition or divide the entities into groups or clusters based on their attributes or characteristics. Clustering algorithms normally require both a method of measuring proximity between patterns and prototypes and a method for aggregating patterns. However sometimes feature vectors or patterns may not be available for objects and only the proximities between the objects are known. Even if feature vectors are available some of the features may not be numeric and it may not be possible to find a satisfactory method of aggregating patterns for the purpose of determining prototypes. Clustering of objects however can be performed on the basis of data describing the objects in terms of feature vectors or on the basis of relational data. The relational data is in terms of proximities between objects. Clustering of objects on the basis of relational data rather than individual object data is called relational clustering. The premise of this paper is that the proximities between the membership vectors, which are obtained as the objective of clustering, should be proportional to the proximities between the objects. The values of the components of the membership vector corresponding to an object are the membership degrees of the object in the various clusters. The membership vector is just a type of feature vector. Based on this premise, this paper describes another fuzzy relational clustering method for finding a fuzzy membership matrix. The method involves solving a rather challenging optimization problem, since the objective function has many local minima. This makes the use of a global optimization method such as particle swarm optimization (PSO) attractive for determining the membership matrix for the clustering. To minimize computational effort, a Bayesian stopping criterion is used in combination with a multi-start strategy for the PSO. Other relational clustering methods generally find local optimum of their objective function.  相似文献   

16.
以用户击键特征为依据,提出了一种基于谱系聚类法的识别算法。该算法通过谱系聚类法对用户击键特征向量进行聚类分析,并形成各向量之间的谱系关系,从而由谱系关系来对击键特征向量进行识别。该算法的主要特点是使用欧氏距离进行分类,算法实现简单并且识别速度快。由于采用的聚类算法的简单性,其识别精度尚有待提高,因此该算法适用于击键识别的简单应用。  相似文献   

17.
一个基于关联规则的多层文档聚类算法   总被引:3,自引:0,他引:3  
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。  相似文献   

18.
首先对于支持向量聚类中的聚类形成算法做了一定的改进,对于网络连接数据的异构性,提出了采用基于相似度异构距离度量(SHVDM)的核函数方法,以弥补欧式距离在这方面的不足;最后将改进支持向量聚类算法应用于网络入侵检测系统(NIDS),对比于改进前算法及广泛应用的其他聚类算法,实验结果表明改进的算法综合效果好,适应性强,具有一定的理论意义.  相似文献   

19.
基于流量特征的异常检测技术主要是通过网络流量特征属性分布规律映射网络异常行为。为提高检测准确率,降低误报率,文章提出了基于流量特征直方图聚类的异常检测和分类的技术。通过直方图的方法详细描述网段流量特征的时空信息,然后聚类分析各种属性特征的正常模型,最后根据待测流量特征属性与正常模型之间的距离所组成的向量来衡量异常。基于DARPA99数据集的实验表明,该算法具有较高的异常检测和分类准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号