首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 187 毫秒
1.
从Web日志中挖掘用户浏览偏爱路径   总被引:55,自引:0,他引:55  
邢东山  沈钧毅  宋擒豹 《计算机学报》2003,26(11):1518-1523
Web日志中包含了大量的用户浏览信息,如何有效地从其中挖掘出用户浏览兴趣模式是一个重要的研究课题.作者在分析目前用户浏览模式挖掘算法存在的问题的基础上,利用提出的支持一偏爱度的概念,设计了网站访问矩阵,并基于这个矩阵提出了用户浏览偏爱路径挖掘算法:先利用Web日志建立以引用网页URL为行、浏览网页URL为列、路径访问频度为元素值的网站访问矩阵.该矩阵为稀疏矩阵,将该矩阵用三元组法来进行表示.然后,通过对该矩阵进行支持一偏爱度计算得到偏爱子路径.最后进行合并生成浏览偏爱路径.实验表明该算法能准确地反映用户浏览兴趣,而且系统可扩展性较好.这可以应用于电子商务网站的站点优化和个性化服务等.  相似文献   

2.
通过给出页面层次的概念,充分考虑用户在页面上的浏览时间以及在路径选择上表现出来的浏览偏爱,结合Web站点的结构层次特征,提出了一种改进的Web用户浏览偏爱模式挖掘算法.通过具体的事例和试验数据证明,新的模型能够更准确地寻找用户浏览偏爱模式,从而发现用户的兴趣和爱好.  相似文献   

3.
基于云计算的用户浏览偏爱路径挖掘算法   总被引:2,自引:0,他引:2       下载免费PDF全文
从Web日志中挖掘用户浏览偏爱路径是一个重要的研究课题。目前的挖掘算法注重客观访问频度,忽略了用户对这一频繁访问路径是否感兴趣。在分析目前用户偏爱路径挖掘算法存在的问题的基础上,结合网站拓扑结构图修正基于频度的用户偏爱路径的衡量标准,提出了有用偏爱度的概念,从而剔除由于页面放置和链接等因素对挖掘的影响;针对目前基于单一节点的挖掘系统的计算能力不足的问题,利用云计算的分布式处理和虚拟化技术的优势,给出了一种基于云计算的数据处理方法,在此基础上挖掘用户浏览偏爱路径。实验表明,该算法针对大数据量的日志进行挖掘,准确率和效率比普通基于频度进行用户浏览偏爱路径挖掘的算法有所提高。  相似文献   

4.
基于选择偏爱度的频繁模式挖掘算法   总被引:1,自引:0,他引:1  
Web技术迅速地发展,如何从庞杂的信息中获取知识已经成为人们迫切希望解决的问题之一。通过对Web日志文件的挖掘可以发现用户的频繁访问模式,找出用户的偏爱度和满意度,进行个性化服务或者帮助站点管理者进行站点的管理和结构。针对如何发现用户的频繁偏爱模式这个问题,本文综合了用户浏览时间和浏览页面的频度这两个决定因素,提出了基于选择偏爱度的使用模式挖掘算法(SPM算法),该算法在一定程度上提高了使用模式挖掘算法的覆盖率和准确率。  相似文献   

5.
挖掘用户偏爱的浏览模式就是从Web日志中发现多数用户偏爱的浏览路径.网页上的浏览时间被转换成一个模糊语言变量来体现网页上浏览时间的特征,最后从建立的包含所有用户浏览信息的FLaAT(Frequent Link and Access Tree)中挖掘增量式带有模糊语言变量的用户偏爱浏览模式.  相似文献   

6.
Web站点导航是Web数据挖掘的一个重要研究领域,是准确理解用户访问网站行为的关键;传统Web站点导航技术很难全面反映出用户对页面浏览的兴趣程度,找到用户感兴趣页面路径准确度比较低;为提高找到用户感兴趣页面路径准确度,提出一种基于蚁群算法的Web站点导航技术;将网络用户看作人工的蚂蚁,用户的浏览兴趣作蚂蚁的信息素,通过利用Web日志数据采用正负反馈机制和路径概率选择机制建立一个Web站点导航模型,挖掘用户感兴趣页面的导航路径;仿真实验结果表明,基于蚁群算法的Web站点导航技术提高了找到用户感兴趣页面路径准确度,更加能够准确反映出用户的浏览兴趣,用于Web站点导航是可行的。  相似文献   

7.
提出了一个结合Web文本挖掘的分布式Web使用挖掘模型DWLMST,以及基于该模型的局部浏览兴趣迁移模式更新算法LITP和全局浏览兴趣迁移模式更新算法GITP。利用页面聚类来表示用户兴趣。通过将用户事务中的页面替代为相应的聚类号来得到用户浏览兴趣序列。从用户浏览兴趣序列中分析得到用户浏览兴趣迁移模式。算法较好地解决了Web访问信息的异地存储、实时增长等因素给模式分析过程带来的困难,同时也提高了用户浏览兴趣表示的准确性。  相似文献   

8.
一种新的基于Web日志的挖掘用户浏览偏爱路径的方法   总被引:2,自引:0,他引:2  
任永功  付玉  张亮  吕君义 《计算机科学》2008,35(10):192-196
提出了一种新的基于Web日志的挖掘用户浏览偏爱路径的方法.该方法首先在单元数组存储结构(存储矩阵)基础上建立以浏览兴趣度为基本元素的会话矩阵和路径矩阵.然后,在会话矩阵上采用两个页面向量夹角余弦作为相似用户的页面距离公式进行页面聚类,求得相似用户的相关页面集.最后,利用路径选择偏爱度在相似用户的路径矩阵上挖掘出相似用户的浏览偏爱路径.实验证明此方法是合理有效的,能够得到更准确的偏爱路径.  相似文献   

9.
提出加权支持度和加权偏爱度用来准确反映用户的访问兴趣.其中,专家给定网页的语言评估被刻画成相应的模糊语言变量,使用模糊模拟的方法把这些模糊语言变量转化成表示网页重要性的权重.为了避免用户重要浏览信息的丢失,建立包含所有用户浏览信息的频繁链表加存权树(FLAAT),并从中挖掘用户偏爱的浏览模式.此外网页上的浏览时间也是反映用户兴趣和偏爱的一个重要因素,它被表示成相应的模糊语言变量,因而所获得的带有模糊浏览时间的用户偏爱浏览路径更能反映用户的兴趣和偏爱.  相似文献   

10.
集成Web使用挖掘和内容挖掘的用户浏览兴趣迁移挖掘算法   总被引:2,自引:0,他引:2  
提出了一种集成Web使用挖掘和内容挖掘的用户浏览兴趣迁移模式的模型和算法。介绍了Web页面及其聚类。通过替代用户事务中的页面为相应聚类的方法得到用户浏览兴趣序列。从用户浏览兴趣序列中得到用户浏览兴趣迁移模式。该模型对于网络管理者理解用户的行为特征和安排Web站点结构有较大的意义。  相似文献   

11.
基于蚁群行为的动态挖掘用户导航模式兴趣模型   总被引:1,自引:1,他引:0       下载免费PDF全文
随着电子商务的快速发展,一个越来越重要的问题是如何挖掘并预测用户的导航模式。挖掘用户的导航模式是Web使用挖掘的一项重要任务,也是产生导航推荐的基本方法。由于用户的兴趣是不断变化的,因此很难准确跟踪用户的导航模式。在提出了一种蚁群模型来解决该问题。把Web用户看成是人工的蚂蚁,然后应用蚂蚁理论来指导用户在网站上的选择。首先,基于Web日志数据建立一个用户导航模型;其次,设计了一个算法,动态挖掘群体用户偏好的导航模式;最后,对真实数据集的实验结果表明该方法是有效的。  相似文献   

12.
为了降低用户访问页面的点击次数,提高网站的易用性,给出了一种独特的可以表示页面导航结构的深广度权重树模型,并在不影响导航之间逻辑关系的前提下,提出一种计算权重树的局部最优树算法。通过该算法改变了网站的导航结构,降低了网站总点击次数,继而提高了网站的易用性。实验结果表明该算法是有效的。  相似文献   

13.
朱明  李伟 《计算机应用》2005,25(11):2612-2614
Web页面中除了所包含的数据外,往往还包含很多导航信息、广告等。针对Web页面的特点,提出了DOM树比较算法,通过对多个页面进行比较,识别出主体内容。实验结果证明该方法是有效可行的。  相似文献   

14.
一种基于有向树挖掘Web日志中最大频繁访问模式的方法   总被引:6,自引:0,他引:6  
提出了一种基于Apriori思想的挖掘最大频繁访问模式的s Tree算法。该算法使用有向树表示用户会话,能挖掘出最大前向引用事务和用户的浏览偏爱路径;使用一种基于内容页面优先的支持度计算方法,能挖掘出传统算法不能发现的特定的用户访问模式;使用频繁模式树连接分层的频繁弧克服了图结构数据挖掘算法中直接连接两个频繁模式树要判断连接条件的缺点,同时采用预剪枝策略,降低了算法的开销。实验表明,s Tree算法具有可扩展性,运行效率比直接采用图结构数据挖掘算法要高。  相似文献   

15.
面向主题的概念检索研究   总被引:3,自引:1,他引:2  
该文提出了一种基于概念网络和主题概念树的面向主题的文本检索算法。依托概念网络建立主题概念树,利用主题概念树对用户的查询请求进行语义扩展,实现同义和语义蕴涵检索。关联度的计算模型考虑了词与词之间,句与句之间的语义激励。通过关联度在主题概念树上的传播模型,实现复合概念关联度的计算。检索结果按关联度大小降序排列。基于主题概念树的概念检索导航为用户检索提供了便利。  相似文献   

16.
Mining Navigation Patterns Using a Sequence Alignment Method   总被引:2,自引:0,他引:2  
In this article, a new method is illustrated for mining navigation patterns on a web site. Instead of clustering patterns by means of a Euclidean distance measure, in this approach users are partitioned into clusters using a non-Euclidean distance measure called the Sequence Alignment Method (SAM). This method partitions navigation patterns according to the order in which web pages are requested and handles the problem of clustering sequences of different lengths. The performance of the algorithm is compared with the results of a method based on Euclidean distance measures. SAM is validated by means of user-traffic data of two different web sites. Empirical results show that SAM identifies sequences with similar behavioral patterns not only with regard to content, but also considering the order of pages visited in a sequence.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号