首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
基于PLSI的标签聚类研究   总被引:1,自引:0,他引:1  
针对现有的大众分类中标签模糊导致影响用户搜索效率的问题, 使用概率潜在语义索引(probabilistic latent semantic indexing, PLSI)模型对标签进行潜在语义分析, 经回火期望最大化(tempered exception maximization, TEM)算法训练得到在潜在语义下的条件概率, 生成概率向量; 在此基础上, 提出凝聚式层次k中心点(hierarchical agglomerative K-mediods, HAK-mediods)聚类算法对概率向量进行聚类, 并进行了相关对比实验。实验结果表明, HAK-mediods算法的聚类效果要好于传统的聚类算法, 从而验证了该算法的可行性和有效性。  相似文献   

2.
王治和  王凌云  党辉  潘丽娜 《计算机应用》2012,32(11):3018-3022
在电子商务应用中,为了更好地了解用户的内在特征,制定有效的营销策略,提出一种基于混合概率潜在语义分析(H PLSA)模型的Web聚类算法。利用概率潜在语义分析(PLSA)技术分别对用户浏览数据、页面内容信息及内容增强型用户事务数据建立PLSA模型, 通过对数—似然函数对三个PLSA模型进行合并得到用户聚类的H PLSA模型和页面聚类的H PLSA模型。聚类分析中以潜在主题与用户、页面以及站点之间的条件概率作为相似度计算依据,聚类算法采用基于距离的k medoids 算法。设计并构建了H PLSA模型,在该模型上对Web聚类算法进行验证,表明该算法是可行的。  相似文献   

3.
文章介绍一种网页聚类算法利用潜在语义分析LSA(Latent Semantic Analysis)降低词一文档矩阵的秩,在聚类分析中,采用概率潜在语义分析改善聚类精度。首先利用潜在语义分析对词一文档矩阵进行奇异值分解,达到降秩和去噪的目的;然后在聚类分析中,采用概率潜在语义分析设计文档相似度计算函数,实验结果表明该算法的有效性。  相似文献   

4.
刘世华  黄德才 《控制与决策》2017,32(8):1421-1426
提出一种维度概率摘要模型,将聚类产生的簇摘要信息采用各维度的概率分布来表示;定义点簇相似度、簇簇相似度等相似性度量方法;提出一种基于维度概率摘要模型的凝聚层次聚类算法.实验分析发现,所提模型和算法能够产生高质量的聚类,能够避免噪声点的影响并发现离群点,能够自动发现聚类,算法稳定可靠且对高维数据集聚类效果很好.  相似文献   

5.
以密度敏感距离作为相似性测度,结合近邻传播聚类算法和谱聚类算法,提出了一种密度敏感的层次化聚类算法。算法以密度敏感距离为相似度,多次应用近邻传播算法在数据集中选取一些“可能的类代表点”;用谱聚类算法将“可能的类代表点”再聚类得到“最终的类代表点”;每个数据点根据其类代表点的类标签信息找到自己的类标签。实验结果表明,该算法在处理时间、内存占用率和聚类错误率上都优于传统的近邻传播算法和谱聚类算法。  相似文献   

6.
基于概率潜在语义分析的Web用户聚类   总被引:1,自引:1,他引:0  
Web用户聚类知识可以为改进信息搜索效率和提供个性化服务提供帮助。通过对海量日志记录分析,构建会话-页面矩阵;根据信息论理论,在会话-页面矩阵中权值计算中考虑局部和全局权值贡献;利用概率潜在语义分析将隐式变量Z对页面P的条件概率转换为隐式变量Z对会话S的条件概率,然后在聚类分析中以此作为相似度计算依据。聚类算法采用了基于距离的k-medoids算法,以进一步改善聚类精度。实验结果验证了该算法的有效性和局限性。  相似文献   

7.
个人微博是现在流行的社交工具,因其数量繁杂而对用户浏览产生困扰。本文将语义相似度大的微博聚类以 方便用户浏览。主要研究工作如下:1. 使用python 中的jieba 分词对个人微博进行分词预处理并去除停用词;2. 将分词数据集 利用CBOW模型训练词语向量;3. 用词语向量表示个人微博句子向量;4. 个人微博句子向量表示成空间中的分布点,使用改进 的曼哈顿句子算法计算距离即个人微博间的相似度。5. 使用改进的clarans 算法聚类。实验表明本文的方法与传统聚类算法 如划分法、层次法、密度法等有明显的提高。  相似文献   

8.
针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各“块”对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作为两个网页的相似度。该算法充分考虑结构差别较大的网页对网页正文提取的影响,通过计算网页间相似度将网页聚类,使得同一簇中的网页正文提取结果更加准确。实验结果表明,该方法具有更高的准确率,各项评价指标均有所提高。  相似文献   

9.
为了揭示用户的访问模式,对传统的基于聚类技术构建用户概貌方法进行了研究,同时引入语义事务分析的观点,提出一种基于潜在语义模型构建用户概貌的方法.通过语义分析中的奇异值分解(SVD)算法,将构建的用户会话-浏览页面矩阵向量空间投影到潜在语义向量空间;利用扩展的K-means聚类算法,对潜在语义向量空间聚类生成用户会话聚类;计算浏览页面均值向量,构建以加权浏览页面集表示的用户概貌;最后采用加权平均访问百分比(WAVP)方法评价构建的用户概貌,表明了该方法的有效性.  相似文献   

10.
提出了一种基于用户浏览历史的用户兴趣提取模型,它隐式地收集用户信息用于个性化搜索中,即是通过对用户兴趣度的定义,在用户的浏览历史中得到一组代表用户兴趣的网页,并设计一个聚类算法,对这组代表用户兴趣的网页进行聚类操作,从而得到能代表此用户兴趣类别的词,即用户的兴趣。  相似文献   

11.
提出一种基于本体的网络会话表示方法,即语义会话,和一种会话聚类和可视化方法。会话聚类方面基于用户浏览网站的公共路径提出一种语义会话间的相似性度量——语义公共路径相似性度量(SMSCP),并且使用改进的kmedoids聚类算法衡量其有效性。在聚类结果可视化方面应用层云表来展示聚类结果。实验表明文中的聚类方法和可视化方法具有更好的有效性及可理解性。  相似文献   

12.
颜晶晶 《计算机应用》2011,31(7):1751-1755
提出一种基于本体的信息过滤方法。该方法通过本体实现形式化语义描述,并对原始输入条件进行带约束规则的本体语义扩展。进而为了实现语义匹配,给出了信息向量语义描述及权重计算方法。最终,实现基于语义相似度计算的信息过滤。实验证明,该方法是有效的。  相似文献   

13.
An algorithm is proposed for revealing latent user’s interests from the observable protocol of users behavior, e.g., site visits. The algorithm combines the ideas of customer environment analysis and probabilistic latent semantic analysis. A quality criterion based on the classification of preliminarily labeled sites is introduced to optimize the algorithm parameters and compare algorithms. The experiments show that the quality has an optimum by the essential parameters of the algorithm, however the attempt of too precise optimization can lead to overfitting.  相似文献   

14.
为了满足Web服务使用者的个性化需求,提出了一种基于隐语义概率模型的用户指标偏好预测方法,用于个性化Web服务推荐.首先,引入两个决定用户指标偏好的关键因素:用户以及用户所处的服务情境,隐语义概率模型借助隐含类别建立用户指标偏好、用户及服务情境三者之间的隐含语义依赖关系,并且为描述用户、服务情境、指标偏好多方面的特征,允许这三者可同时以不同的概率隶属于多个隐含类别;然后,将期望极大(expectation maximization, EM)算法运用于由层次分析法获得的训练数据,以估计隐语义概率模型的参数;最后,使用该模型预测用户在特定服务情境下的指标偏好.隐语义概率模型与标准的基于内存的协同过滤以及基于聚类改进的协同过滤相比,不仅具有明确的数学模型,而且实验结果表明,隐语义概率模型对用户个性化指标偏好的预测精度最高,同时可以缓解数据稀疏性带来的不良影响.  相似文献   

15.
针对个性化站点较少考虑用户检索意图的问题,提出结合交叉信息熵和词语特征信息的关键词提取方法以及结合余弦相似度和加权海明距离的文本排序方法,旨在不需要用户任何反馈的条件下,为用户推荐更满意的检索结果。通过过滤用户请求个性化站点时的访问地址,获取用户浏览的网页文本内容,从中提取能够表示用户检索意图的关键词集进行重新检索后对检索结果排序,最后将排序后的结果作为推荐模块返回给用户。实验表明,利用该方法获得的查询推荐结果能够更加符合用户检索意图,提供更好的用户体验。  相似文献   

16.
The agglomerative hierarchical clustering of continuous variables is studied in the framework of the likelihood linkage analysis method proposed by Lerman. The similarity between variables is defined from the process comparing the empirical copula with the independence copula in the spirit of the test of independence proposed by Deheuvels. Unlike more classical similarity coefficients for variables based on rank statistics, the comparison measure considered in this work can also be sensitive to non-monotonic dependencies. As aggregation criteria, besides classical linkages, permutation-based linkages related to procedures for combining dependent p-values are considered. The performances of the corresponding clustering algorithms are compared through thorough simulations. In order to guide the choice of a partition, a natural probabilistic selection strategy, related to the use of the gap statistic in object clustering, is proposed and empirically compared with classical ordinal approaches. The resulting variable clustering procedure can be equivalently regarded as a potentially less computationally expensive alternative to more powerful tests of multivariate independence.  相似文献   

17.
面对因特网上急剧增加的网页内容,通过对Web日志中的浏览记录进行聚类分析,可以改进信息搜索和个性化服务的效率。根据信息论理论,在会话一页面矩阵权值计算中考 虑局部和全局权值的贡献;利用PLSA将隐式变量Z对页面P的条件概率转换为隐式变量Z对会话S的条件概率,然后在聚类分析中以此作为相似度计算依据。聚类算法采用了基于距离的k-medoids算法,以进一步改善聚类精度。实验结果验证了该算法的有效性和局限性。  相似文献   

18.

Context

Component identification, the process of evolving legacy system into finely organized component-based software systems, is a critical part of software reengineering. Currently, many component identification approaches have been developed based on agglomerative hierarchical clustering algorithms. However, there is a lack of thorough investigation on which algorithm is appropriate for component identification.

Objective

This paper focuses on analyzing agglomerative hierarchical clustering algorithms in software reengineering, and then identifying their respective strengths and weaknesses in order to apply them effectively for future practical applications.

Method

A series of experiments were conducted for 18 clustering strategies combined according to various similarity measures, weighting schemes and linkage methods. Eleven subject systems with different application domains and source code sizes were used in the experiments. The component identification results are evaluated by the proposed size, coupling and cohesion criteria.

Results

The experimental results suggested that the employed similarity measures, weighting schemes and linkage methods can have various effects on component identification results with respect to the proposed size, coupling and cohesion criteria, so the hierarchical clustering algorithms produced quite different clustering results.

Conclusions

According to the experimental results, it can be concluded that it is difficult to produce perfectly satisfactory results for a given clustering algorithm. Nevertheless, these algorithms demonstrated varied capabilities to identify components with respect to the proposed size, coupling and cohesion criteria.  相似文献   

19.
视频关键帧提取是视频摘要的重要组成部分,关键帧提取的质量直接影响人们对视频的认识。传统的关键帧提取算法大多都是基于视觉相关的提取算法,即单纯提取底层信息计算其相似度,忽略语义相关性,容易引起误差,同时也造成了一定的冗余。对此提出了一种基于语义的视频关键帧提取算法。该算法首先使用层次聚类算法对视频关键帧进行初步提取;然后结合语义相关算法对初步提取的关键帧进行直方图对比,去掉冗余帧,确定视频的关键帧;最后与其他算法比较,所提算法提取的关键帧冗余度相对较小。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号