首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
姜大庆  周勇 《计算机科学》2012,39(11):142-144
针对现有个性化推荐服务系统中用户会话聚类算法存在相似性度量准确性低和需要事先确定聚类数目的问 题,对序化的用户访问页面和对应的访问时间信息进行整合,提出一种基于动态规划算法的全序列比对方法来度量用 户会话的相似性。在此基础上,运用改进的NJ W谱聚类算法对用户会话进行自动谱聚类。实验结果表明,算法充分 考虑了用户会话的整体特征和局部信息,较相关比对算法具有更高的聚类性能,可以提高网站个性化推荐服务的效 率。  相似文献   

2.
Web页面相似性是Web页面聚类和Web会话聚类的基础,其准确性直接影响聚类的质量。本文在分析基于URL结构的静态Web页面相似性度量的基础上,提出了将URL结构和页面访问时间结合起来度量Web页面对之间的相似性并给出了度量标准。实验证明,采用我们提出的度量标准得到的结果准确性更高,更接近于用户浏览兴趣。  相似文献   

3.
随着社交网络和文献索引网络等大规模互联多类异质信息网络的浮现,为相似搜索提出许多挑战,其中相似性度量是关键问题之一。现有适用于同构网络的相似度量方法没有考虑网络多个路径的不同语义。本文提出一种新的基于元路径的相似性度量方法,可以在异构网络中搜索相同类型的对象。元路径是由在不同对象类型中定义的一系列关系所组成的路径,可以为网络中相似搜索引擎提供共同的基础。在真实数据集上的实验表明,与无序相似性衡量方法相比,本文提出的方法支持快速路径相似性查询,可广泛地应用于社交网络和电子商务领域。  相似文献   

4.
Web用户聚类是通过分析用户会话,将具有相同或相似访问特征的用户聚为一类。在会话相似性度量方面综合考虑了网页浏览时间和访问频次两个因素,并考虑到用户个人习惯、能力等因素对浏览时间的影响,将浏览时间处理为RDP(Reduce the Differences in Personality)浏览时间,以降低其个性特征。为此,提出一种基于用户特性的RDPk-means聚类算法。实验表明,该算法可以有效实现用户会话的聚类,聚类结果客观合理。  相似文献   

5.
针对现有基于语义知识规则分析的文本相似性度量方法存在时间复杂度高的局限性,提出基于分类词典的文本相似性度量方法。利用汉语词法分析系统ICTCLAS对文本分词,运用TF×IDF方法提取文本关键词,遍历分类词典获取关键词编码,通过计算文本关键词编码的近似性来衡量原始文本之间的相似度。选取基于语义知识规则和基于统计两个类别的相似性度量方法作为对比方法,通过传统聚类与KNN分类分别对相似性度量方法进行效果验证。数值实验结果表明,新方法在聚类与分类实验中均能取得较好的实验结果,相较于其他基于语义分析的相似性度量方法还具有良好的时间效率。  相似文献   

6.
余宏  万常选 《计算机工程》2010,36(1):85-86,90
针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传统方法。  相似文献   

7.
余宏  万常选 《计算机工程》2010,36(1):85-86,9
针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传统方法。  相似文献   

8.
谱聚类算法受到度量中尺度因子的影响,同时传统谱聚类算法通过欧氏距离度量样本间相似性也不准确。针对上述问题,提出一种基于传递距离的谱聚类算法。算法首先通过改进传统谱聚类中的度量方式,用基于传递距离的度量方式度量样本间相似性,并构建传递矩阵,接着用传递矩阵做相似度变换构建拉普拉斯矩阵,最终通过求特征值和特征向量完成聚类。基于传递距离的谱聚类算法在人工数据集及UCI数据集上均取得了良好的聚类结果,具有较好的鲁棒性和有效性。  相似文献   

9.
罗会兰  危辉 《计算机科学》2010,37(11):234-238
提出了一种基于集成技术和谱聚类技术的混合数据聚类算法CBEST。它利用聚类集成技术产生混合数据间的相似性,这种相似性度量没有对数据特征值分布模型做任何的假设。基于此相似性度量得到的待聚类数据的相似性矩阵,应用谱聚类算法得到混合数据聚类结果。大量真实和人工数据上的实验结果验证了CBEST的有效性和它对噪声的鲁棒性。与其它混合数据聚类算法的比较研究也证明了CBEST的优越性能。CBEST还能有效融合先验知识,通过参数的调节来设置不同属性在聚类中的权重。  相似文献   

10.
针对名老中医病例的结构特点,设计了一种基于模拟退火的聚类算法对数据库中病例聚类进行全局优化.病例聚类时,根据一般意义的树间编辑距离,提出一种用于判断XML描述的病例之间是否相似的度量(称为XML编辑距离).利用XML编辑距离,可将XML数据间相似性度量的时间复杂度限制在多项式级,且能保持病例的XML描述文档的节点语义信息和节点间的祖孙嵌套关系.最后,在Tamino数据库上进行实验,结果证实了基于模拟退火的病例聚类算法在名老中医数据挖掘实践中的可行性和有效性.  相似文献   

11.
There are many parameters that may affect the navigation behaviour of web users. Prediction of the potential next page that may be visited by the web user is important, since this information can be used for prefetching or personalization of the page for that user. One of the successful methods for the determination of the next web page is to construct behaviour models of the users by clustering. The success of clustering is highly correlated with the similarity measure that is used for calculating the similarity among navigation sequences. This work proposes a new approach for determining the next web page by extending the standard clustering with the content-based semantic similarity method. Semantics of web-pages are represented as sets of concepts, and thus, user session are modelled as sequence of sets. As a result, session similarity is defined as an alignment of two sequences of sets. The success of the proposed method has been shown through applying it on real life web log data.  相似文献   

12.
基于音乐语义标签的音乐相似计算研究是音乐信息检索领域的另一个新的热点。该文提出一种基于标签挖掘的歌曲分类方法,以Last.fm音乐网站上的用户标签为特征进行歌曲相似性研究。文中将文本聚类中常用的潜在语义分析(LSA)方法和改进的K-means聚类方法相结合,应用于音乐语义标签的自动抽取;从音乐网站last.fm上抽取了6大类600首歌曲的8000多个用户标签作为音乐语义特征,并利用LSA进行歌曲向量的降维,形成了一个表示歌曲间相似关系的600×150维向量矩阵。最后利用K均值,根据音乐歌曲间的相似度进行歌曲分类,完成歌曲相似性比较。实验结果同没有LSA降维前及已有的HCC结果比较表明,使用文中提出的基于音乐标签的模型对歌曲进行分类,能得到较好的分类效果。  相似文献   

13.
Web服务的聚类能够改善基于服务的应用如服务发现、组合和QoS预测等.然而目前的聚类方法在相似度度量和信息预处理方面存在一些不足.提出Web服务的QoS和功能两种相似度模型,从不同角度度量服务间的相似度.在此基础上,提出一种特殊的考虑到编程风格和命名规则的预处理方法.最后结合SCAN算法实现了本方法并设计了对比实验对提出的方法进行验证.实验结果表明提出的模型和方法能够有效地提高Web服务的聚类效果.  相似文献   

14.
XML文档相似性的仿真研究   总被引:1,自引:0,他引:1  
XML文档相似性的计算是XML文档分类中的一个难题。文中描述了一种基于结构的方法,通过序列化模式挖掘方法,挖掘出两个文档之间的最大相似路径,从而可以通过计算最大相似的路径的节点数目和所有路径的节点数目的比值,得到两个文档之间的相似度。文章提出了一种新的最小化XML文档的方法,并且综合考虑了文档节点的语义相似度和结构相似度,从而进一步地提高了计算文档相似度的精度。实验表明,该方法有着良好的应用前景。  相似文献   

15.
基于归纳化会话的网络用户的聚类   总被引:7,自引:0,他引:7  
为了发掘具有相似的访问兴趣的网络用户,探讨了网络用户聚类的问题。网络用户的访问信息从服务器日志文件中抽取出来,组织成会话向量的形式,会话描述为一段时间内用户向服务器发出一系列访问请求。为了减少会话向量的维度,根据网页的层次性,采用面向属性的推理方法,对这些会话进行了归纳,并且定义了一个新的距离测度来描述两个会话之间的相似度,最后采用某种非欧几里德的关系聚类算法聚类这些归纳化的会话。实验表明,这种方法对在大型的日志文件集中挖掘出有意义的网络用户的分类是高效可行的。  相似文献   

16.
This paper proposes a self-organized genetic algorithm for text clustering based on ontology method. The common problem in the fields of text clustering is that the document is represented as a bag of words, while the conceptual similarity is ignored. We take advantage of thesaurus-based and corpus-based ontology to overcome this problem. However, the traditional corpus-based method is rather difficult to tackle. A transformed latent semantic indexing (LSI) model which can appropriately capture the associated semantic similarity is proposed and demonstrated as corpus-based ontology in this article. To investigate how ontology methods could be used effectively in text clustering, two hybrid strategies using various similarity measures are implemented. Experiments results show that our method of genetic algorithm in conjunction with the ontology strategy, the combination of the transformed LSI-based measure with the thesaurus-based measure, apparently outperforms that with traditional similarity measures. Our clustering algorithm also efficiently enhances the performance in comparison with standard GA and k-means in the same similarity environments.  相似文献   

17.
目前,语义Web服务匹配方面的研究主要集中在基于服务功能性信息的语义匹配上,但是,充分利用非功能语义信息有助于提高服务匹配的精度。非功能语义信息主要是文本描述,因此,基于非功能语义的服务匹配转化为文本相似度的问题。为了支持中文,本文根据《知网》来计算文本相似度,详细介绍了词语相似度、概念相似度和义原相似度的计算方法,并进行了实验,实验结果显示加入非功能语义虽然查全率有所下降,但查准率有很大的提高,进而证明非功能语义可以提高服务匹配的精度。  相似文献   

18.
为了能准确挖掘用户兴趣点,首先利用概率潜在语义分析PLSA模型将“网页 词”矩阵向量投影到概率潜在语义向量空间,并提出“自动相似度阈值选择”方法得到网页间的相似度阈值,最后提出将平面划分法与凝聚式层次聚类相结合的凝聚式层次k中心点HAK medoids算法,实现用户兴趣点聚类。实验结果表明,与传统的基于划分的算法相比,HAK medoids算法聚类效果更好。同时,提出的用户兴趣点聚类技术在个性化服务领域可提高个性化推荐和搜索的效率。关键词:  相似文献   

19.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号