共查询到16条相似文献,搜索用时 78 毫秒
1.
用户兴趣空间的Web页面聚类 总被引:4,自引:1,他引:4
郭岩 《微电子学与计算机》2003,20(8):10-14,68
文章基于日志挖掘,提出一种在用户兴趣空间中进行Web页面聚类的算法。算法的基础是用户访问频率矩阵A。A的行对应页面向量,列对应用户向量,A中元素是用户对页面的访问频率。对A中的行做聚类可以对页面进行相关聚类,对A中的列做聚类可以对兴趣相似的用户进行聚类。文章认为A中的这两种聚类是一对对偶问题。文章基于A和A中这两种聚类在权重之间的对偶关系,提出了用户兴趣空间的概念。用户兴趣空间突出了用户的共同兴趣,是一个正交空间。实验结果表明,与在A中直接做页面聚类相比较,用户兴趣空间中的页面聚类取得了较好的效果。 相似文献
2.
基于兴趣度的Web用户聚类方法 总被引:1,自引:1,他引:0
现有的Web用户聚类方法都是通过对用户喜好页面的访问模式分析来建立用户聚类,没有充分考虑时间意识、用户兴趣、用户访问模式之间的关系与影响.针对这一问题,在时间意识的Web用户聚类基础之上,提出了基于兴趣度的Web用户聚类方法.通过对日志文件中的用户访问模式进行分析,计算用户兴趣度.结合渐进遗忘算法,对用户兴趣爱好进行调整与更新,并在此基础上对用户进行聚类.实验表明,本方法能够更好地分析用户访问模式,更准确地计算用户兴趣,具有更好的聚类效果. 相似文献
3.
随着Internet的迅速发展,人们必须面对信息爆炸的现实。描述了一种关键词向量的方式表达用户兴趣。将BIRCH聚类算法应用于用户访问的网络文档上来建立用户兴趣模型。基于Myspace用户日志,又实现了一个用户兴趣建模系统,该系统验证了提出方法的有效性。 相似文献
4.
本文提出了一种基于遗传算法.结合网站拓朴分析.对URL实行树型层次编码为基础的Web用户聚类计算模型。讨论了描述、跟踪用户行为,实现Web用户聚类的方法。阐述聚类所要考虑的相关问题,并给出聚类的实验分析。 相似文献
5.
对用户兴趣进行聚类分析对研究消费心理有着重要的意义.提出一种考虑用户兴趣分类优化的聚类模型,采用ID3决策树算法提高用户兴趣分类计算速度,将最高信息增益的属性当成前节点的检测属性,确保结果分解中的用户兴趣样本分类所需的信息量最小,构建用户兴趣分类优化的自适应模糊聚类目标函数,更新聚类原型矩阵,在自适应模糊聚类模型下,直接给出聚类原型的迭代等式,保证分类准确.实验结果说明,所提模型相对于传统聚类模型不容易陷入局部最优解,具有较高的查全率和查准率,对进一步用户行为研究有着较大的意义. 相似文献
6.
7.
随着Internet上Web服务的快速增长,准确、高效地发现Web服务已经是Web服务技术中的难点和关键问题。文章提出基于用户兴趣的Web服务发现方法。首先介绍了对用户兴趣进行挖掘和建模的方法,然后论述了Web服务描述文档和用户兴趣特征之间的相关性分析过程,为得出满足用户兴趣的Web服务发现结果提供了一条可行的路径,提高了Web服务发现的准确度。 相似文献
8.
本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况。着重总结了Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的研究热点,并提出了Web文本聚类算法的发展方向。 相似文献
9.
基于Web的文本挖掘研究 总被引:4,自引:6,他引:4
基于Web的文本挖掘是数据挖掘的重要组成部分,文章重点对文本特征提取、文本分类、文本聚类等Web文本挖掘关键实现技术做了介绍,最后讨论了Web文本挖掘的价值及其对Web发展的重要性。 相似文献
10.
一种文本聚类方法及BBS浏览机制研究 总被引:2,自引:0,他引:2
文章旨在探索一种新的BBS浏览方式,提出了一种新的文本聚类方法.即以分等级的菜单方式组织帖子,以引导用户方便地浏览他所感兴趣的帖子,也便于了解当前BBS上的热点话题。 相似文献
11.
本文探讨了用户兴趣挖掘的新方法,首先从用户搜索日志中获取访问行为元素,并借助通用本体中的概念描述网页所体现的用户个体兴趣,然后提出了一种兴趣得分计算方法,并在此基础上从用户个体兴趣序列中识别不同的兴趣模式,判断用户的短期兴趣,并利用通用本体得出用户兴趣的集合表示,最后根据短期兴趣的增量积累推算长期兴趣.整个过程避开了以往兴趣挖掘方法中通过相似度计算和文档聚类算法进行兴趣合并的问题,为兴趣发现提供了新思路.实验结果表明,本文的方法对用户兴趣的描述更具体,取得了更优化的兴趣合并结果. 相似文献
12.
本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况.着重总结了Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的研究热点,并提出了Web文本聚类算法的发展方向. 相似文献
13.
传统的用于Web日志聚类的算法大都需要用户指定聚类个数。提出了一种新的自适应聚类算法并对Web日志用户会话进行聚类。该算法基于凝聚聚类思想和划分聚类思想,用初始数据集中每2个会话之间的相异度作为距离的度量,合并距离小于一定阈值的两个会话以产生初始聚类,再根据一定的规则动态地合并距离最小的会话类或会话,算法的结果是产生自然的聚类。最后,通过比较会话聚类的内部距离和类间距离来验证算法的有效性。这种聚类算法的最大优点在于,他能够产生自动的聚类,而不需要用户事先指定需要产生的聚类个数,并且能有效识别孤立点。实验表明,这种聚类能够产生较高质量的聚类效果。 相似文献
14.
尽管用户可自主生成个性化数据以更全面描述个人偏好,但由于用户创建数据不严谨、不可控,导致生成的庞大数据集大多存在质量低、噪声严重的缺陷.因此管理复杂网络信息时,不能仅使用写入性知识,必须重视具有大量领域知识的专家,因为其可为系统提供高质量的信息.本文通过构建和分析用户兴趣分布曲线以发现兴趣领域专家,并提出甄别状态不正常的伪专家算法.由于网络中权威专家数量较少,所以所提供的信息是有限的.因此本文定义的领域专家不仅包含权威专家,而且包含普通用户中对某领域有极高关注的兴趣领域专家.实验证明算法的正确性和高效性,并且较低的复杂度使其可处理海量用户节点信息. 相似文献
15.
Web结构优化技术在降低访问延迟、提高访问效率上具有重要作用。由此提出根据用户访问路径建立Web层次模型(WHM),利用页面相似度合并同层相似页面,从而构建Web概念化模型(WCM)。实验及分析表明, WCM模型能够在适度聚类的情况下清晰地展现Web结构。此外,将WCM模型应用于预取系统,该模型所采用的聚类算法在预取效率方面明显优于传统方法,具有可行性和高效性。 相似文献
16.
吕岩 《微电子学与计算机》2012,29(3):31-34
提出了一种改进蚁群文本聚类算法.改进蚁群文本聚类算法利用信息素对蚂蚁随机移动进行控制,使蚂蚁朝着文本向量相对集中的区域移动,缩短蚂蚁寻找文本向量簇的时间,提高聚类效率.采用复旦大学中文文本分类语料库进行仿真实验,实验结果表明,改进蚁群文本聚类算法不仅加快了文本聚类算法的收敛速度,而且提高文本聚类结果的精度. 相似文献