首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
一种新的基于Web日志的挖掘用户浏览偏爱路径的方法   总被引:2,自引:0,他引:2  
任永功  付玉  张亮  吕君义 《计算机科学》2008,35(10):192-196
提出了一种新的基于Web日志的挖掘用户浏览偏爱路径的方法.该方法首先在单元数组存储结构(存储矩阵)基础上建立以浏览兴趣度为基本元素的会话矩阵和路径矩阵.然后,在会话矩阵上采用两个页面向量夹角余弦作为相似用户的页面距离公式进行页面聚类,求得相似用户的相关页面集.最后,利用路径选择偏爱度在相似用户的路径矩阵上挖掘出相似用户的浏览偏爱路径.实验证明此方法是合理有效的,能够得到更准确的偏爱路径.  相似文献   

2.
一种改进的用户浏览偏爱路径挖掘方法   总被引:1,自引:0,他引:1  
提出一种基于“三矩阵”模型的偏爱浏览路径的挖掘方法。在单元数组存储结构(存储矩阵)基础上建立以浏览兴趣度为基本元素的会话矩阵和路径矩阵。在会话矩阵上采用2个页面向量夹角余弦作为相似用户的页面距离公式进行页面聚类,求得相似用户的相关页面集。并利用路径选择偏爱度在相似用户的路径矩阵上挖掘出相似用户的浏览偏爱路径。实验证明,该方法是合理有效的,能够得到更精准的用户偏爱浏览路径。  相似文献   

3.
设计实现了一种从Web日志挖掘用户频繁访问路径的模型.提出网页聚类分析的一个重要基础理论,以及页面价值和跳转偏爱度的概念,并建立页面价值模型.该模型从页面价值-用户矩阵计算出页面价值间的加权欧氏距离,并由距离大小获得等价值页面集.再根据跳转偏爱度把等价值页面集转化为2-项频繁访问子路径集,并经过自适应的合并算法得到最终的频繁访问路径集.实验证明该页面价值模型能高效获得更精准的频繁访问路径.  相似文献   

4.
方刚 《计算机系统应用》2010,19(12):100-104
针对Web服务器日志中会话模式的页面属性为布尔量的特点,提出一种基于序列数的Web使用挖掘算法。该算法将用户会话模式转换成二进制数,然后用数字递增方式搜索候选频繁项;算法通过序列数的维来计算支持数,实现一次扫描用户会话模式,有效地提高了Web使用挖掘的效率。实验表明其效率比现有算法更快速而有效。  相似文献   

5.
在分析现有挖掘用户频繁路径技术不足的基础上提出算法MUFPS(Mining User Frequent Paths based on Supportability).该算法主要通过用户会话文件计算出所有被请求页面各自的支持度总和,并结合Web站点结构挖掘出该用户的频繁访问路径.通过实验对比证明该算法能有效地提高挖掘效率,同时保证了挖掘结果的准确性和可靠性.  相似文献   

6.
纪怀猛 《计算机工程》2013,(11):183-186
捕要:Apriori算法在关联规则挖掘过程中需要多次扫描事务数据库,产生大量候选项目集,导致计算量过大。为解决该问题,提出一种基于频繁2项集支持矩阵的Apriori改进算法,通过分析频繁k+1项集的生成机制,将支持矩阵与频繁2项集矩阵相结合实现快速剪枝,并大幅减少频繁k项集验证的计算量。实验结果表明,与Apriori算法和ABTM算法相比,改进算法明显提高了频繁项集的挖掘效率。  相似文献   

7.
一种基于矩阵的动态频繁项集挖掘算法   总被引:4,自引:0,他引:4  
频繁项集的生成是关联规则挖掘中的关键问题,提出了一种基于上三角项集矩阵的动态频繁项集挖掘算法。当事务数据库和最小支持度发生变化时,本算法只需重新遍历一次上三角项集矩阵,即可得到新的频繁项集。与传统的频繁项集挖掘算法相比,在执行效率上有显著提高。  相似文献   

8.
该文根据用户的Web访问路径应用关联规则和类Apriori算法挖掘出该用户的频繁访问路径,通过对Apriori算法和目前针对提高该算法效率的各种优化技术的详细分析和研究,对类Apriori算法进行了改进,提出了基于筛选压缩的类Apriori挖掘算法,并进行了模拟实验,比较结果显示基于筛选压缩的类Apriori挖掘算法挖掘用户频繁遍历路径的效率高于类Apriori算法,最终可获取用户的频繁遍历路径。  相似文献   

9.
网页在线实时推荐是网络个性化服务的重要内容,基于Web日志的网页实时推荐有助于提高检索效率、缓解网络拥塞,提高网站吸引力.该算法通过将用户会话处理成数字序列以体现用户访问路径的先后顺序,利用动态矩阵和滑动窗简化了路径相似度计算;算法只扫描一遍日志,可以进一步提高实时响应速度.该算法在考虑用户访问路径的先后顺序和简化推荐机制的基础上,提出了会话编码和动态矩阵的概念,利用其在推荐中可以兼顾满意度和实时性,同时实时性不受日志增加的影响.试验结果表明,该算法在兼顾满意度的基础上可以大幅提高推荐的实时性,具有实际应用价值.  相似文献   

10.
基于概率潜在语义分析的Web用户聚类   总被引:1,自引:1,他引:0  
Web用户聚类知识可以为改进信息搜索效率和提供个性化服务提供帮助。通过对海量日志记录分析,构建会话-页面矩阵;根据信息论理论,在会话-页面矩阵中权值计算中考虑局部和全局权值贡献;利用概率潜在语义分析将隐式变量Z对页面P的条件概率转换为隐式变量Z对会话S的条件概率,然后在聚类分析中以此作为相似度计算依据。聚类算法采用了基于距离的k-medoids算法,以进一步改善聚类精度。实验结果验证了该算法的有效性和局限性。  相似文献   

11.
Web日志中含有大量的用户浏览信息,从中将相似用户及相关页面进行聚类是建立自适应网站的必要前提。通过基本的预处理,实现了日志的数据净化、用户识别会话识别及数据规约,形成了用户访问页面的序列数据库,同时通过离散化技术计算出用户访问页面频度。在这些数据准备工作的基础上,构造了用户一页面关联矩阵,作为改进的模糊C均值聚类算法的输入,实现了相似用户及相关页面的聚类。实验表明改进的FCM算法的有效性。  相似文献   

12.
基于矩阵聚类的电子商务网站个性化推荐系统   总被引:7,自引:0,他引:7  
提出一种基于“矩阵聚类”的电子商务网站个性化推荐系统,通过分析Web server日志文件中的访问页面序列行为数据,构建较高购买者的顾客行为的矩阵模型;并使用一种新型的“矩阵聚类”算法挖掘潜在购买者与较高购买者的相似特征,从而帮助顾客发现他所希望购买的产品信息,用于提高实际购买量.该技术特别适合于目前大型的电子商务网站,实验数据表明,该系统是高效并可广泛使用.  相似文献   

13.
Correlation-Based Web Document Clustering for Adaptive Web Interface Design   总被引:2,自引:2,他引:2  
A great challenge for web site designers is how to ensure users' easy access to important web pages efficiently. In this paper we present a clustering-based approach to address this problem. Our approach to this challenge is to perform efficient and effective correlation analysis based on web logs and construct clusters of web pages to reflect the co-visit behavior of web site users. We present a novel approach for adapting previous clustering algorithms that are designed for databases in the problem domain of web page clustering, and show that our new methods can generate high-quality clusters for very large web logs when previous methods fail. Based on the high-quality clustering results, we then apply the data-mined clustering knowledge to the problem of adapting web interfaces to improve users' performance. We develop an automatic method for web interface adaptation: by introducing index pages that minimize overall user browsing costs. The index pages are aimed at providing short cuts for users to ensure that users get to their objective web pages fast, and we solve a previously open problem of how to determine an optimal number of index pages. We empirically show that our approach performs better than many of the previous algorithms based on experiments on several realistic web log files. Received 25 November 2000 / Revised 15 March 2001 / Accepted in revised form 14 May 2001  相似文献   

14.
基于模糊模拟的加权偏爱浏览模式的挖掘   总被引:1,自引:0,他引:1  
每个网页由不同的专家给出语义上的重要性评估,这些语义评估再被刻画成相应的模糊语言变量,通过模糊模拟的方法,这些模糊语言变量被转化成表示网页重要性的权重。此外,简单地认为用户的访问频度反映了用户的访问兴趣是不准确的,因此在提出的加权支持度和偏爱度概念的基础上,从建立的包含了所有用户浏览信息的FLaAT(Frequent Link and Access Tree)上,挖掘用户偏爱的加权浏览模式。试验证明该算法是行之有效的。  相似文献   

15.
从Web日志中挖掘用户浏览偏爱路径   总被引:55,自引:0,他引:55  
邢东山  沈钧毅  宋擒豹 《计算机学报》2003,26(11):1518-1523
Web日志中包含了大量的用户浏览信息,如何有效地从其中挖掘出用户浏览兴趣模式是一个重要的研究课题.作者在分析目前用户浏览模式挖掘算法存在的问题的基础上,利用提出的支持一偏爱度的概念,设计了网站访问矩阵,并基于这个矩阵提出了用户浏览偏爱路径挖掘算法:先利用Web日志建立以引用网页URL为行、浏览网页URL为列、路径访问频度为元素值的网站访问矩阵.该矩阵为稀疏矩阵,将该矩阵用三元组法来进行表示.然后,通过对该矩阵进行支持一偏爱度计算得到偏爱子路径.最后进行合并生成浏览偏爱路径.实验表明该算法能准确地反映用户浏览兴趣,而且系统可扩展性较好.这可以应用于电子商务网站的站点优化和个性化服务等.  相似文献   

16.
《Computer Networks》1999,31(11-16):1245-1258
The creation of a complex Web site is a thorny problem in user interface design. In this paper we explore the notion of adaptive Web sites: sites that semi-automatically improve their organization and presentation by learning from visitor access patterns. It is easy to imagine and implement Web sites that offer shortcuts to popular pages. Are more sophisticated adaptive Web sites feasible? What degree of automation can we achieve?To address the questions above, we describe the design space of adaptive Web sites and consider a case study: the problem of synthesizing new index pages that facilitate navigation of a Web site. We present the PageGather algorithm, which automatically identifies candidate link sets to include in index pages based on user access logs. We demonstrate experimentally that PageGather outperforms the Apriori data mining algorithm on this task. In addition, we compare PageGather's link sets to pre-existing, human-authored index pages.  相似文献   

17.
基于兴趣度的Web用户访问模式分析   总被引:1,自引:0,他引:1  
吕佳 《计算机工程与设计》2007,28(10):2403-2404,2407
Web日志隐含了用户访问Web行为的动因和规律,如何有效地从中挖掘出用户访问模式是Web日志挖掘的重要研究内容.构造了User_ID-URL矩阵,矩阵元素为用户访问页面的兴趣度.应用经典的模糊C-均值聚类算法进行用户访问模式分析,通过在真实数据集上的实验,结果表明引入了用户兴趣度的日志挖掘算法是行之有效的.  相似文献   

18.
To avoid returning irrelevant web pages for search engine results, technologies that match user queries to web pages have been widely developed. In this study, web pages for search engine results are classified as low-adjacence (each web page includes all query keywords) or high-adjacence (each web page includes some of the query keywords) sets. To match user queries with web pages using formal concept analysis (FCA), a concept lattice of the low-adjacence set is defined and the non-redundancy association rules defined by Zaki for the concept lattice are extended. OR- and AND-RULEs between non-query and query keywords are proposed and an algorithm and mining method for these rules are proposed for the concept lattice. The time complexity of the algorithm is polynomial. An example illustrates the basic steps of the algorithm. Experimental and real application results demonstrate that the algorithm is effective.  相似文献   

19.
用户Web日志序列模式挖掘研究   总被引:2,自引:0,他引:2  
李林  崔志明 《微机发展》2005,15(5):119-121,157
单个用户访问网站能够留下大量的访问信息,合理地挖掘这些信息便能够得到用户个人的访问模式。文中将序列模式挖掘运用到单一用户Web日志上.最终可以得到单一用户的访问序列模式。在序列模式挖掘过程中,将传统的序列模式挖掘概念进行了扩充,对应到单一用户的序列模式上;运用Session来划分时间段,增强了时间的概念;运用概念格的理论,很好地实现了增量序列模式挖掘。并使用一个新的算法,解决MFP(最大前向路径)在Web日志中获取存在的一些问题。  相似文献   

20.
为了更好地向用户提供个性化的Web检索服务,实现了一种改进的个性化词典的生成算法——IGAUPD,用于在用户浏览的大量兴趣网页中挖掘出真正符合用户兴趣的词语,以此缩小传统词库的容量,使得在用户兴趣建模时,能更快更准确地形成兴趣网页的特征描述,并更好地支持个性化检索。IGAUPD算法采用新的词权计算公式IWTUPD,以更好地描述词语在网页集中的重要性,有效排除频繁词。最后,用实验验证了由IGAUPD算法生成的个性化词典的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号