首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
基于Web-Log Mining的N元预测模型   总被引:11,自引:0,他引:11  
苏中  马少平  杨强  张宏江 《软件学报》2002,13(1):136-141
随着Web上用户访问信息的不断增加,特别是Web服务器可提供大量的日志文件,使得有可能对这些大数据集进行知识挖掘,例如,对用户未来的访问进行预测.提出了一种利用服务器日志文件,运用N元(N-gram)预测模型对用户未来可能进行的Web访问请求进行预测.这种模型会选择性地对用户可预测的请求进行预测,从而大大提高了预测精度.实验证明,在自然语言中普遍适用的N元预测模型同样适用于网页预测.同时,采用了一种有效的简化手段,大大压缩了模型的大小,使得5元模型和传统的2元模型大小基本相同,而预测精度提高了1倍.该结果可以广泛地运用到Web上,包括网页的预发送、预取、推荐以及Web上的caching机制.试验是建立在真实的Web日志上的,该算法无论在预测精度上还是在可适用度上都优于以往的算法.  相似文献   

2.
基于结构相关性Markov模型的Web网页预取方法   总被引:2,自引:0,他引:2  
预取技术通过在用户浏览当前网页的时间内提前取回其将来最有可能请求的网页来减小实际感知的获取网页的时间。预测的准确性和方法的可用性是预取技术需要解决的主要问题。针对目前Web网页预取的一般方法的不足之处,提出了一种基于结构相关性Markov模型的Web网页预取方法。仿真实验的结果表明,这种方法在保证一定预测准确性的同时也具有较好的可用性,能够在减小用户访问延迟、提高响应速度方面达到较为满意的效果。  相似文献   

3.
序列模式挖掘能够发现隐含在Web日志中的用户的访问规律,可以被用来在Web预取模型中预测即将访问的Web对象。目前大多数序列模式挖掘是基于Apriori的宽度优先算法。提出了基于位图深度优先挖掘算法,采用基于字典树数据结构的深度优先策略,同时采用位图保存和计算各序列的支持度,能够较迅速地挖掘出频繁序列。将该序列模式挖掘算法应用于Web预取模型中,在预取缓存一体化的条件下实验表明具有较好的性能。  相似文献   

4.
梁力图  陆璐 《计算机科学》2014,41(11):46-49,68
近年来,Web应用成为互联网时代基础设施中最重要的组成部分。随着互联网技术的不断进步以及使用用户数量的不断增长,Web应用也越发变得复杂。为了保证Web应用性能测试的有效性和真实性,提出一种利用服务器日志中的用户会话信息、结合经过序列匹配算法改进的层次凝聚算法来自动产生Web应用性能测试脚本的方法。提出的方法通过从服务器日志中提取出用户会话信息,分析用户真实的访问模式,通过聚类算法将同类型的用户访问模式进行聚集,自动产生相应的测试请求序列,生成测试集。相比于传统的基于录制/回访的测试方法,基于用户会话的性能测试方法通过对用户会话进行聚类分析,还原实际的用户访问模式,减少了设计测试用例时的人工参与,保证了测试结果的有效性和真实性。  相似文献   

5.
基于客户端的网页预取模型   总被引:2,自引:0,他引:2       下载免费PDF全文
提出一种基于客户端的网页预取模型。此模型以WPC方法为理论核心,WPC方法以客户端用户访问日志数据为依据,从中挖掘出Web用户的访问模式再通过提出的模式匹配算法进行网页预测,还提出基于Agent的Web预取系统具体应用WPC方法进行网页预取决策。此模型避免或简化了一般的网页预取模型对Web日志进行的复杂的预处理的一些步骤,其中包括数据净化,用户识别,用户会话识别和事务识别等,从而提高了预取效率。实验结果表明该模型能够达到较为理想的预取效果,具有较高的实用价值。  相似文献   

6.
吕佳 《计算机科学》2007,34(4):204-206
Web日志隐含了用户访问网站的行为和特点,对其进行聚类分析可以获取用户的浏览模式,发现用户访问网站的偏好和兴趣,从而优化站点结构,实现个性化的服务。针对Web日志数据特点,本文提出免疫网络聚类算法。该算法将Web服务器看成生物机体,用户访问Web的请求序列看成需要检测的入侵抗原,模拟抗体学习抗原的生物机理,自动生成代表用户访问模式的记忆抗体,实现动态聚类。  相似文献   

7.
韩靖  张宏江  蔡庆生 《软件学报》2002,13(6):1040-1049
用户浏览因特网网站点击某个链接后,该链接的网页往往需要一段时间才能传送到用户端.为了缩短用户的等待时间,利用网站服务器的空闲CPU时间,对用户下一个HTTP请求进行预测,以便预处理下一个网页是一种可能途径.使用已分类的网页信息、用户配置文件和网站日志进行预测,介绍并且分析了16种预测算法.实验结果证明某些算法是比较有效可信的.  相似文献   

8.
随机搜索是用户在享受视频点播服务时常见的行为,它使得播放进度发生突然变化,同时要求系统做出及时的响应.为了缩短数据访问的响应时延,通常采用预取机制提前获取部分数据用以满足将来的需要,然而如何利用有限的存储空间预取尽可能多的有用数据是其中的关键问题.本文根据视频点播用户随机搜索操作的行为特征模型和媒体内容不同部分受欢迎程度的不同,提出一种范围受限、流行度感知的P2P视频点播系统数据预取机制RC-PAP.仿真实验结果表明,相比于现有的数据预取方法,RC-PAP 可以显著提高用户随机搜索操作时的响应速度,并减轻内容源服务器的访问压力.  相似文献   

9.
缓存和预取在提高无线环境下的Web访问性能方面发挥着重要作用。文章研究针对无线局域网的Web缓存和预取机制,分别基于数据挖掘和信息论提出了采用序列挖掘和延迟更新的预测算法,设计了上下文感知的预取算法和获益驱动的缓存替换机制,上述算法已在Web缓存系统OnceEasyCache中实现。性能评估实验结果表明,上述算法的集成能有效地提高缓存命中率和延迟节省率。  相似文献   

10.
预取是提高存储系统性能的主要手段之一.但现有存储系统的设备层并不知道任何I/O访问的语义信息,因而不能充分利用I/O访问的语义来预取下一时刻要访问的数据,只能利用较简单的方式如I/O访问的局部性、顺序访问和循环访问等特性来实现简单的预测.为此,本文根据存储系统的特点提出了实用且高效的基于连续度的聚类算法来发现密集读请求访问的区域,并采用ARMA时间序列模型来预测密集读请求可能访问的区域及访问时刻,为正确的预取提供了准确的信息.为提高预取的准确性,并采用了动态参数估计的策略.通过大量实验的结果验证了这两种算法的正确性和预测的准确性,能较大的提高存储系统的预取效率.  相似文献   

11.
数据挖掘技术在Web预取中的应用研究   总被引:69,自引:0,他引:69  
WWW以其多媒体的传输及良好的交互性而倍受青睐,虽然近几年来网络速度得到了很大的提高,但是由于接入Internet的用户数量剧增以及Web服务和网络固有的延迟,使得网络越来越拥护,用户的服务质量得不到很好的保证。为此文中提出了一种智能Web预取技术,它能够加快用户浏览Web页面时获取页面的速度。该技术通过简化的WWW数据模型表示用户浏览器缓冲器中的数据,在此基础上利用数据挖掘技术挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据。在用户端,智能代理负责用户兴趣的挖掘及基于兴趣关联知识库的Web预取,从而对用户实现透明的浏览器加速。  相似文献   

12.
基于兴趣度的Web用户访问模式分析   总被引:1,自引:0,他引:1  
吕佳 《计算机工程与设计》2007,28(10):2403-2404,2407
Web日志隐含了用户访问Web行为的动因和规律,如何有效地从中挖掘出用户访问模式是Web日志挖掘的重要研究内容.构造了User_ID-URL矩阵,矩阵元素为用户访问页面的兴趣度.应用经典的模糊C-均值聚类算法进行用户访问模式分析,通过在真实数据集上的实验,结果表明引入了用户兴趣度的日志挖掘算法是行之有效的.  相似文献   

13.
本文研究了使用集群环境下的用户访问日志数据生成用户会话聚类的方法:编制Perl脚本从用户访问日志中生成用户会话,以新的相似度度量取代欧几里德距离改进Leader算 法对用户会话集合进行聚类,并计算聚类的内部距离和间隔距离来验证算法的有效性。实验结果表明,这种实现能有效地对用户访问日志进行聚类,并能满足服务器预取机制
制在线分析的时间、空间要求。  相似文献   

14.
基于分类方法的Web站点实时个性化推荐   总被引:28,自引:0,他引:28  
王实  高文  李锦涛 《计算机学报》2002,25(8):845-852
提出一种新的基于分类方法的实时个性化推荐方法,该文首先根据用户访问事务文法生成序列访问事务集,用于得到每个用户访问的序列特性并且便于分类器进行分类,然后利用该事务集训练一个多类分类器,作者通过推荐引擎得到每个用户的当前访问序列和用户当前请求页面,然后把该序列送入分类器进行分类,以得到用户的下面一些可能访问的页面,这些推荐页面的地址被附加到用户当前请求的页面的底部由推荐引擎返回以进行推荐,在这种方法中,用户不需要注册信息,推荐不打扰用户,可以为用户提供实时个性化的服务,实验表明这种方法是成功的。  相似文献   

15.
通过对现有VoD用户行为的研究分析,认为VoD的用户行为具有一定的可预测性,如果分发中能考虑到用户行为的因素,可以提高分发的效率。提出了一种基于用户行为统计的内容分发方案,预测用户行为;采用提前预取的动态策略,达到系统整体性能的优化。对系统的仿真试验证明,基于用户行为的动态预取策略,相比缓存最新策略和F/CN替换策略,可以降低服务器端的带宽压力,提高用户的节点命中率,更好地发挥P2P的I陛能。  相似文献   

16.
基于Web日志的频繁偏爱路径挖掘算法   总被引:2,自引:0,他引:2  
为了挖掘出更能如实反映Web用户兴趣偏好的使用模式,充分考虑了用户在页面的停留时间和点击次数两个因素,给出了频繁偏爱路径的定义,并提出了频繁偏爱路径的挖掘算法,该方法在求得最大向前路径的基础上,迭代产生更长的候选频繁偏爱路径,通过计算候选路径的频繁偏爱支持度来判断其是否为频繁偏爱路径.利用真实日志数据进行实验,实验结果表明,该算法具有较高的覆盖率和准确性.  相似文献   

17.
Web search engine: Characteristics of user behaviors and their implication   总被引:5,自引:0,他引:5  
In this paper, first studied are the distribution characteristics of user behaviors based on log data from a massive web search engine. Analysis shows that stochastic distribution of user queries accords with the characteristics of power-law function and exhibits strong similarity, and the user' s queries and clicked URLs present dramatic locality, which implies that query cache and 'hot click' cache can be employed to improve system performance. Then three typical cache replacement policies are compared, including LRU, FIFO, and LFU with attenuation. In addition, the distribution character-istics of web information are also analyzed, which demonstrates that the link popularity and replica pop-ularity of a URL have positive influence on its importance. Finally, variance between the link popularity and user popularity, and variance between replica popularity and user popularity are analyzed, which give us some important insight that helps us improve the ranking algorithms in a search engine.  相似文献   

18.
面向Web应用的语义标注方法   总被引:1,自引:0,他引:1  
提出了一种语义标注的方法来支持用户在网上的浏览活动.采用了基于参考本体转换技术的语义转换,它能够从语义上同类型的标注资源中提取特征.随着获取标注资源的模式建立用户意向模型,利用概率的方法识别用户意向.然后利用启发式函数量化具体用户意向和资源之间的相似度,从而达到用户在浏览语义异构网络信息空间时获取相关信息的目的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号