首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
Web预取技术的研究   总被引:1,自引:0,他引:1  
预取技术是提高缓存命中率和解决Web访问延迟问题的主要方案,本文研究了网页预取技术,将数据挖掘应用于Web预取中,设计了一个为用户提供个性化服务的Web预取模型;详细介绍了对Web日志进行预处理的方法;提出了新的预取替换算法。  相似文献   

2.
缩短Web访问中的用户感知时间,是Web应用中的一个重要问题,服务器需要预测用户未来的HTTP请求和处理当前的网页以提高Web服务器的响应速度,为此提出了一种基于用户访问模式的Web预取算法.该算法根据Web日志信息分析了用户的访问模式,并计算出Web页面间的转移概率,以此作为对用户未来请求预取的依据.实验结果表明,该预取算法能有效提高预测精度和命中率,有效地缩短了用户的感知时间.  相似文献   

3.
基于用户访问树的Web日志挖掘数据预处理   总被引:1,自引:0,他引:1  
刘加伶  范军 《计算机科学》2009,36(9):154-156
在Web日志挖掘中数据预处理是整个挖掘过程的基础,直接影响日志挖掘的质量和结果.提出了一种基于用户访问树的Web日志挖掘数据预处理方法,该方法在处理过程中根据Web日志建立用户访问树,并利用用户访问树进行用户和事务识别,从而可以在缺乏网站拓扑结构的情况下准确地对Web日志进行预处理.  相似文献   

4.
具有访问时间完整性的Web日志方法   总被引:4,自引:0,他引:4  
Web服务器日志记录了外部用户对本服务器的访问信息,是分析网站的重要数据。但是根据当前流行的几种Web日志格式来看,它们所记录的时间数据并不完整;当用户访问一个网页时,只记录了访问该网页的开始时间,而没有记录访问结束时间。这将造成访问信息的丢失,给今后的分析工作(如访问时间统计、用户会话识别等)带来困难。本文提出了一种Web日志方法,它能克服目前Web服务器日志的这一缺点,记录完整的时间信息.  相似文献   

5.
基于网页的结构相关性及隐马尔可夫过程提出一种基于Web网页结构相关性的预取模型,通过网页抓捕建立特征词集,在此特征词集的基础上对用户的访问序列进行分析,提取超链接语义中蕴含的信息需求,在此特征词集的基础上对网页超链语义进行分析。模型引入隐马尔可夫模型实现用户访问序列中潜在意图的挖掘。性能测试实验的结果表明,该模型具有较好的整体性能。  相似文献   

6.
基于Web-Log Mining的N元预测模型   总被引:11,自引:0,他引:11  
苏中  马少平  杨强  张宏江 《软件学报》2002,13(1):136-141
随着Web上用户访问信息的不断增加,特别是Web服务器可提供大量的日志文件,使得有可能对这些大数据集进行知识挖掘,例如,对用户未来的访问进行预测.提出了一种利用服务器日志文件,运用N元(N-gram)预测模型对用户未来可能进行的Web访问请求进行预测.这种模型会选择性地对用户可预测的请求进行预测,从而大大提高了预测精度.实验证明,在自然语言中普遍适用的N元预测模型同样适用于网页预测.同时,采用了一种有效的简化手段,大大压缩了模型的大小,使得5元模型和传统的2元模型大小基本相同,而预测精度提高了1倍.该结果可以广泛地运用到Web上,包括网页的预发送、预取、推荐以及Web上的caching机制.试验是建立在真实的Web日志上的,该算法无论在预测精度上还是在可适用度上都优于以往的算法.  相似文献   

7.
基于用户访问路径分析的网页预取模型   总被引:15,自引:0,他引:15       下载免费PDF全文
许欢庆  王永成 《软件学报》2003,14(6):1142-1147
随着网络信息的飞速增长,互联网已成为人们获取信息的重要来源.但是,受限于网络带宽,用户往往需要忍受较长的访问延时.为了缓解这种情况,人们提出了网页预取技术,用于降低用户的访问延迟,提高Web服务器的服务质量.提出一种基于用户访问路径分析的服务器端网页预取模型.模型通过对用户访问序列进行语义分析,提取路径中蕴含的信息需求,依此进行网页预取决策.为了实现用户访问序列中潜在意图的挖掘,模型还引入了隐马尔可夫模型.性能测试实验的结果表明,该模型具有较好的整体性能.  相似文献   

8.
基于结构相关性Markov模型的Web网页预取方法   总被引:2,自引:0,他引:2  
预取技术通过在用户浏览当前网页的时间内提前取回其将来最有可能请求的网页来减小实际感知的获取网页的时间。预测的准确性和方法的可用性是预取技术需要解决的主要问题。针对目前Web网页预取的一般方法的不足之处,提出了一种基于结构相关性Markov模型的Web网页预取方法。仿真实验的结果表明,这种方法在保证一定预测准确性的同时也具有较好的可用性,能够在减小用户访问延迟、提高响应速度方面达到较为满意的效果。  相似文献   

9.
在讨论Web日志挖掘问题的困难与现状的基础上,根据日志挖掘的特点和方法,着重提出了一种能自适应改变网站链接拓扑结构的模型:PCWS模型,它充分地利用了现有的算法,对模型中的每一部分进行了探究,描述了实现的方法。可以自适应不同的用户群,以简便用户访问网页。最后,具体介绍了利用该模型进行日志文件预处理,用户识别,会话识别,挖掘用户路径和序列模式识别的方法,并给出试验结果。目前,针对模型进行了初步的实现,效果良好,为进一步研究Web挖掘奠定了基础。  相似文献   

10.
Web日志挖掘中的数据预处理技术   总被引:7,自引:1,他引:6       下载免费PDF全文
数据预处理是Web日志挖掘中的重要步骤,一般分为数据清理、用户识别、会话识别和路径补充。为消除代理服务器、防火墙和本地缓存对Web日志带来的影响,采用基于引用的分析方法完成用户会话识别和路径补充。实验结果表明,在Web访问日志中的记录引用信息较完整的情况下,该方法可以高效地获得用户的访问路径。  相似文献   

11.
提出了一种结合页面内容和站点结构的Markov模型,该模型应用于网页预取。传统的Markov模型是基于历史的模型,将对用户以往的使用记录的统计应用于网页预取。本文通过在Markov模型之上,结合页面内容及站点结构来调整状态转移矩阵,以获得更精确的预取结果,提高Web服务的质量。性能测试结果表明,该模型具有较好的性能。  相似文献   

12.
搜索引擎往往返回给用户一个包含大量文档片段的列表,用户从中筛选出自己所需要的文档。文中提出一种预取代理的方法:对搜索引擎返回的结果进行聚类分析,使得用户以主题的方式来查看结果,满足用户搜索请求的个性化服务;同时对聚类进行评价,推测出用户可能感兴趣的文档,并将它们预取过来,从而减少网络延迟。  相似文献   

13.
针对传统Web访问模式挖掘系统中用户识别和会话识别的复杂性和不准确性,该文提出了基于过滤器的Web访问模式挖掘系统。它能够准确地识别用户和会话,为挖掘算法提供优质的数据。给出了日志过滤器的实现和部署,提出了Web访问模式的挖掘算法。目前该方法已经广泛地应用于科学数据库系统中。  相似文献   

14.
序列模式挖掘能够发现隐含在Web日志中的用户的访问规律,可以被用来在Web预取模型中预测即将访问的Web对象。目前大多数序列模式挖掘是基于Apriori的宽度优先算法。提出了基于位图深度优先挖掘算法,采用基于字典树数据结构的深度优先策略,同时采用位图保存和计算各序列的支持度,能够较迅速地挖掘出频繁序列。将该序列模式挖掘算法应用于Web预取模型中,在预取缓存一体化的条件下实验表明具有较好的性能。  相似文献   

15.
针对匿名用户数据的海量性与冗余性等特点,为提高数字证据的用户身份鉴定性能,文章提出基于用户行为模式的匿名数据鉴定方法.首先,文章研究了基于BIDE算法的用户频繁行为模式挖掘方法,为数据鉴定提供了高质量的用户频繁序列行为模式库.然后,采用基于最长公共子序列的相似度方法得到模式综合相似度,全面描述用户数据之间的吻合程度.最...  相似文献   

16.
本文研究了使用集群环境下的用户访问日志数据生成用户会话聚类的方法:编制Perl脚本从用户访问日志中生成用户会话,以新的相似度度量取代欧几里德距离改进Leader算 法对用户会话集合进行聚类,并计算聚类的内部距离和间隔距离来验证算法的有效性。实验结果表明,这种实现能有效地对用户访问日志进行聚类,并能满足服务器预取机制
制在线分析的时间、空间要求。  相似文献   

17.
会话识别是Web日志的用户行为分析的关键步骤, 精准的会话识别是有效进行用户行为分析的基础。已有的会话识别方法不能有效地动态适应不同的用户(如多IP单用户、单IP多用户)行为, 在Web日志分析的基础上, 提出了一种基于引用启发式和URL语义相结合的会话识别方法。实验结果表明, 改进后的会话识别方法能更有效地识别出用户的真实会话。  相似文献   

18.
曾少宁  汪华斌 《测控技术》2016,35(5):95-100
分析了企业信息系统的Web用户界面开发特性,研究了当前主流前端框架的MVC(模型-视图-控制器)设计模式应用,针对Web前端开发需求及最佳实践方法,提出了一种符合MVC用户界面开发最佳实践的组件化Web用户界面建模方法.设计一套抽象和描述Web用户界面组件的UML(统一建模语言)概要文件,从界面数据模型、界面组件模型到界面交互模型等3个方面完成Web用户界面建模.以一个装修行业定制型ERP(企业资源计划)系统为例,通过用户界面建模实践,验证了本建模方法的可行性、易用性和有效性.  相似文献   

19.
Web主题检索是信息检索领域一个将采集技术与过滤方法结合的新兴方向,也是信息处理领域的研究热点。针对现有主题检索系统在Web页面文本的主题相关性判断和Spider搜索策略方面存在的问题,引入两个性能优化方案,即利用信息抽取技术,提出了一种基于模式集的主题相关性判断方法来提高主题判断准确度;针对pagerank在主题检索中存在的不足,引入基于增强学习的页面评估算法,提出了Web环境优先的搜索策略。最后根据实验结果评估两个算法的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号