首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
基于闭合有间隔频繁子序列的点击流聚类   总被引:2,自引:0,他引:2       下载免费PDF全文
马超  沈微 《计算机工程》2010,36(23):72-75
对网站日志文件中记录的点击流序列聚类可以发现用户使用模式,从而对用户归类。而传统聚类方法面临着难以提取点击流中有代表性的特征向量以及点击流及其特征向量存在数据稀疏性的问题。针对上述情况,提出一种基于闭合有间隔频繁子序列模式挖掘的点击流聚类方法。该方法从点击流中提取子序列模式的频繁支持度,构建特征向量,利用基于双向映射欧氏距离的模糊距离度量判断向量间相似度,增强BIRCH聚类算法对点击流数据的聚类效果。  相似文献   

2.
基于语义和结构的XML文档相似度的计算方法   总被引:1,自引:0,他引:1  
个性化信息服务通过了解用户的兴趣爱好,为不同的用户提供不同的信息服务。XML是一种标示语言,是Web文档表示和交换的常用相关标准,因此XML文档之间相似度计算问题对于个性化推荐与信息检索非常重要,为此提出了一个计算XML文档之间的语义和结构相似度的方法XMLSim。首先,基于节点标记对之间的语义相似度和编辑距离计算节点标记对之间的相似度;在分析了路径上节点具有的偏序关系之后,将路径之间相似度问题抽象为最大相似子序列(MSS,Maximal Similar Subsequence)问题,并利用动态规划对MSS问题求解得到路径相似度NpathSim。最后,XML文档之间的相似度XMLSim通过路径集合之间的最大NPathSim的平均值得到。  相似文献   

3.
基于本体的个性化领域信息服务   总被引:8,自引:0,他引:8  
以数字图书馆领域个性化服务为例,以空间向量模型表示用户兴趣和资源特征,并借助于构建的领域本体和“知网”知识词典对向量进行概念上的扩展,形成用户和资源特征概念空间向量,并通过向量相似度计算寻找最优的资源,从而为用户提供个性化信息服务。实验数据说明了基于概念的相似度计算比基于关键词的相似度计算具有更明显的优越性。  相似文献   

4.
虚拟空间中在线同源用户具有相似行为特征,但现有相似性度量算法难以对其进行有效识别。提出一种基于序列对齐的在线同源用户识别算法,根据在线用户行为日志提取点击流数据,采用序列对齐方法计算在线用户的行为相似度,将其用行为相似度矩阵表示并对用户进行层次聚类,以识别虚拟空间中的在线同源用户,同时分析不同维度的用户特征属性对用户行为相似性的影响程度。实验结果表明,该算法能准确识别出在线同源用户,用户行为相似性受性别、户籍和教育程度3种特征属性影响较大,受年龄、社会阶层和收入水平的影响较小。  相似文献   

5.
《计算机工程》2018,(1):219-225
研究用户学习网页点击流数据,挖掘用户兴趣,从而为用户进行个性化学习资源推荐,提出JMATRIX算法。基于用户历史资源点击流信息,构建用户资源点击数据有向图模型,并将有向图模型转化为矩阵模型存储。采用求解矩阵模型相似度,从而求得用户相似度,极大地降低了资源点击频率和资源点击路径用户相似度求解的复杂度,提高用户相似度求解的效率与准确度。结合Leader Clustering算法及粗糙集理论进行用户聚类和用户个性化资源推荐。实验结果表明,相比Leader Clustering算法,JMATRIX算法具有更高的效率和更准确的推荐效果。  相似文献   

6.
点击流数据是分析互联网用户心理倾向的关键,互联网用户的聚类可以通过分析点击流数据实现. 本文提出了一种基于向量的相似度计算方法,将点击流数据转化为向量数据. 通过对向量的计算来得出聚类的结果. 算法克服了传统的聚类算法的一些缺点,更能符合研究人员研究Web点击流数据时关于个性化聚类的要求.  相似文献   

7.
所谓的LCS(Longest Common Subsequence)问题,就是寻找生物序列的最长公共子序列。传统的算法都是基于字符串的比较。近几年不少学者给出了生物序列的图形表示,本文就利用DNA序列的一种二维图形表示采寻找最长公共子序列。  相似文献   

8.
颜色是图像的重要特征之一,被广泛用于图像检索。传统的颜色直方图检索算法丢弃了色彩的空间位置信息,影响了算法的检索精度。针对这一问题,提出了一种基于最大相似子阵的彩色图像检索算法,即采用奇数方阵分割图像以捕捉颜色的空间分布特征,从而得到颜色矩阵,通过求解两个颜色矩阵的最大相似子阵实现相似度计算。研究结果表明,所提算法能够准确描述图像的颜色特征,相似度计算非常有效,相比全局直方图有较好的检索精度。  相似文献   

9.
针对现有基于评论分析推荐算法中的评论真实度问题和传统协同过滤算法中的数据稀疏问题,通过分析用户评论所包含的主题分布和反馈信息,将改进的用户偏好和信任度引入传统协同过滤算法中,提出了基于用户评论评分与信任度的协同过滤算法。该算法以用户评论为基础,学习物品特征在不同主题上的分布及用户对物品不同特征的偏好程度,生成用户评论主题分布,根据用户评分计算评论差异度来放大主题分布中的突出特征,并利用评论反馈数据生成评论帮助度,进一步矫正用户偏好,以减少虚假评论的影响;引入信任度用于计算更精确的用户相似度,进而对用户进行评分预测和物品推荐。在真实数据集上进行了实验验证,结果表明该算法有效提高了系统的评分预测性能和推荐效果。  相似文献   

10.
基于改进编辑距离的字符串相似度求解算法   总被引:1,自引:0,他引:1  
编辑距离(LD)算法在求解两个字符串的相似问题时只考虑了编辑操作次数,未考虑字符串之间的公共子串对相似度的影响。为此,提出一种基于改进编辑距离的字符串相似度求解算法,对字符串相似度度量公式及Levenshtein矩阵计算方法进行改进。在计算编辑距离时,以原有矩阵求出两字符串的最长公共子串及所有LD回溯路径。选取一个单词作为源串,一组与源串不同程度相似的单词为目标串,将改进的相似度度量公式与现有的字符串相似度计算方法进行比较,改进公式减少了进入胜者表的目标串数,相似度的样本极差和标准差分别为0.331和0.150。实验结果表明,改进算法在不改变空间复杂度的情况下,计算字符串相似度的准确性更高,且查询方式更灵活。  相似文献   

11.
在考虑样本向量相似性的基础上,提出一种核函数--高斯余弦核,并证明了该核是一类局部固定核.局部固定核同时描述了样本全局和局部结构,因而高斯余弦核可将样本数据映射到信息描述更为丰富的特征空间.将该核用于Logistic混沌时间序列和煤气炉数据集的支持向量回归建模与预测,仿真结果表明所提出的方法能有效地提高预测精度,而且不增加算法的复杂度.  相似文献   

12.
Fuzzy rough sets are considered as an effective tool to deal with uncertainty in data analysis, and fuzzy similarity relations are used in fuzzy rough sets to calculate similarity between objects. On the other hand in kernel tricks, a kernel maps data into a higher dimensional feature space where the resulting structure of the learning task is linearly separable, while the kernel is the inner product of this feature space and can also be viewed as a similarity function. It has been reported there is an overlap between family of kernels and collection of fuzzy similarity relations. This fact motivates the idea in this paper to use some kernels as fuzzy similarity relations and develop kernel based fuzzy rough sets. First, we consider Gaussian kernel and propose Gaussian kernel based fuzzy rough sets. Second we introduce parameterized attribute reduction with the derived model of fuzzy rough sets. Structures of attribute reduction are investigated and an algorithm with discernibility matrix to find all reducts is developed. Finally, a heuristic algorithm is designed to compute reducts with Gaussian kernel fuzzy rough sets. Several experiments are provided to demonstrate the effectiveness of the idea.  相似文献   

13.
现有核聚类算法需要学习完整的核矩阵,计算效率较低,仅适用于小规模数据,对此提出了基于图谱理论的核函数分类算法。首先,基于图谱理论建立无标记数据的相似度图;然后,计算其拉普拉斯矩阵,并选取拉普拉斯矩阵的部分特征向量来学习;最终,利用核k-means算法实现数据分类。对比试验结果证明,本算法在具有较好聚类性能的前提下,计算效率明显优于其他同类型算法,并适合中型及大型规模数据分类处理。  相似文献   

14.
Recently there has been a steep growth in the development of kernel-based learning algorithms. The intrinsic problem in such algorithms is the selection of the optimal kernel for the learning task of interest. In this paper, we propose an unsupervised approach to learn a linear combination of kernel functions, such that the resulting kernel best serves the objectives of the learning task. This is achieved through measuring the influence of each point on the structure of the dataset. This measure is calculated by constructing a weighted graph on which a random walk is performed. The measure of influence in the feature space is probabilistically related to the input space that yields an optimization problem to be solved. The optimization problem is formulated in two different convex settings, namely linear and semidefinite programming, dependent on the type of kernel combination considered. The contributions of this paper are twofold: first, a novel unsupervised approach to learn the kernel function, and second, a method to infer the local similarity represented by the kernel function by measuring the global influence of each point toward the structure of the dataset. The proposed approach focuses on the kernel selection which is independent of the kernel-based learning algorithm. The empirical evaluation of the proposed approach with various datasets shows the effectiveness of the algorithm in practice.  相似文献   

15.
Image retrieval is an important problem for researchers in computer vision and content-based image retrieval (CBIR) fields. Over the last decades, many image retrieval systems were based on image representation as a set of extracted low-level features such as color, texture and shape. Then, systems calculate similarity metrics between features in order to find similar images to a query image. The disadvantage of this approach is that images visually and semantically different may be similar in the low level feature space. So, it is necessary to develop tools to optimize retrieval of information. Integration of vector space models is one solution to improve the performance of image retrieval. In this paper, we present an efficient and effective retrieval framework which includes a vectorization technique combined with a pseudo relevance model. The idea is to transform any similarity matching model (between images) to a vector space model providing a score. A study on several methodologies to obtain the vectorization is presented. Some experiments have been undertaken on Wang, Oxford5k and Inria Holidays datasets to show the performance of our proposed framework.  相似文献   

16.
为了解决高维数据在分类时导致的维数灾难,降维是数据预处理阶段的主要步骤。基于稀疏学习进行特征选择是目前的研究热点。针对现实中大量非线性可分问题,借助核技巧,将非线性可分的数据样本映射到核空间,以解决特征的非线性相似问题。进一步对核空间的数据样本进行稀疏重构,得到原数据在核空间的一种简洁的稀疏表达方式,然后构建相应的评分机制选择最优子集。受益于稀疏学习的自然判别能力,该算法能够选择出保持原始数据结构特性的"好"特征,从而降低学习模型的计算复杂度并提升分类精度。在标准UCI数据集上的实验结果表明,其性能上与同类算法相比平均可提高约5%。  相似文献   

17.
18.
王自强  钱旭 《计算机应用》2009,29(2):416-418
为了高效地解决Web文档分类问题,提出了一种基于核鉴别分析方法KDA和SVM的文档分类算法。该算法首先利用KDA对训练集中的高维Web文档空间进行降维,然后在降维后的低维特征空间中利用乘性更新规则优化的SVM进行分类预测。采用了文档分类领域两个著名的数据集Reuters-21578和20-Newsgroup进行实验,实验结果表明该算法不仅获得了更高的分类准确率,而且具有较少的运行时间。  相似文献   

19.
In this paper, a method is proposed for the segmentation of color images using a multiresolution-based signature subspace classifier (MSSC) with application to psoriasis images. The essential techniques consist of feature extraction and image segmentation (classification) methods. In this approach, the fuzzy texture spectrum and the two-dimensional fuzzy color histogram in the hue-saturation space are first adopted as the feature vector to locate homogeneous regions in the image. Then these regions are used to compute the signature matrices for the orthogonal subspace classifier to obtain a more accurate segmentation. To reduce the computational requirement, the MSSC has been developed. In the experiments, the method is quantitatively evaluated by using a similarity function and compared with the well-known LS-SVM method. The results show that the proposed algorithm can effectively segment psoriasis images. The proposed approach can also be applied to general color texture segmentation applications.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号