首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
数据挖掘技术在Web预取中的应用研究   总被引:69,自引:0,他引:69  
WWW以其多媒体的传输及良好的交互性而倍受青睐,虽然近几年来网络速度得到了很大的提高,但是由于接入Internet的用户数量剧增以及Web服务和网络固有的延迟,使得网络越来越拥护,用户的服务质量得不到很好的保证。为此文中提出了一种智能Web预取技术,它能够加快用户浏览Web页面时获取页面的速度。该技术通过简化的WWW数据模型表示用户浏览器缓冲器中的数据,在此基础上利用数据挖掘技术挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据。在用户端,智能代理负责用户兴趣的挖掘及基于兴趣关联知识库的Web预取,从而对用户实现透明的浏览器加速。  相似文献   

2.
本文针对目前Web信息挖掘中存在的各种问题,对网络爬虫系统进行研究,提出了一种基于HTTP协议原理、旨在减少网络爬虫系统运行时网络流量的Web页面收集方法--增量更新Crawler方法。该方法通过Web预取技术对现有的Web链接数据库进行演化更新,可以在减少网络流量的同时获得接近现有网络爬虫系统的效果。  相似文献   

3.
提出了一种结合用户访问序列和Web页面内容的数据挖掘方法来形成预取技术。该技术充分考虑了Web页面的内容语义和内容大小,既可以在一定程度上提高命中率,又可以减少服务器的负载。  相似文献   

4.
Web页面流行度模拟器的设计与实现   总被引:2,自引:0,他引:2  
研究Web访问特征是有效进行Web缓存管理的基础。该文使用Zipf第一法则和第二法则建立数学模型,分别模拟Web页面高频区及低频区流行度特征,设计并实现了一个Web日志模拟生成器POPSIM。这种模拟器不仅可以模拟生成Web页面访问日志,而且具有很大的灵活性,为进一步研究Web缓存技术和预取技术提供依据。  相似文献   

5.
Web页面相似度搜索对于网络新闻推荐、近似查询等研究领域具有重要作用。SimRank是经典的相似度计算模型,但其预计算时间和空间开销非常巨大,不适用大规模Web页面网络。利用SimRank快速收敛的特点,在SimRank基础上提出高效Web页面相似度搜索方法(WSR),预计算1步迭代相似度矩阵,根据预计算的1步迭代相似度矩阵在线计算给定查询页面和其他页面的2步迭代相似度。通过对Web网络进行静态剪枝,进一步提高预计算和在线查询处理的效率。实验结果显示,WSR显著降低了存储开销和预计算时间开销,且具有较高精确度和快速查询响应时间。  相似文献   

6.
Naviscope的核心是一个基于 Windows平台功能强劲的 HTTP代理服务器。当 Naviscope安装完成后,所有的标准 Web通讯都会被其接管。   Naviscope安装后,能够完全自动地与 IE、 Netscape、 Opera等浏览器整合,并支持 Netcaptor等以 IE为核心的外挂浏览器,几乎不用进行任何设置就可使用。   Naviscope在网络中称雄是由于其出色的网络加速功能,这应完全归功于其采用的五种颇具特色的技术:页面预取,域名解析缓存,持续连通, MTU/RWIN优化以及内容过滤。 页面预取   在浏览 Web新闻组、 WebBBS、搜索引擎时,通常要连续…  相似文献   

7.
WWW的快速增长导致网络拥塞和服务器超载.缓存技术被认为是减轻服务器负载、减少网络拥塞、降低客户访问延迟的有效途径之一,但作用有限.为进一步提高WWW性能,引入了预取技术.文中首先介绍了Web预取技术的基本思想及其研究可行性,然后分析了现有Web预取模型,最后给出了一个Web预取模型应具有的关键属性.  相似文献   

8.
提出了集群服务器并行网页预取模型,模型采用了马尔科夫链分析访问路径并在Web集群服务器的各节点上并行预取页面,把集群技术的高性能和高可靠性与预取技术的快速响应能力结合起来。实验表明,将此模型应用于集群服务器的分发器上,服务器系统具有更高的请求命中率和更大的吞吐量。  相似文献   

9.
Web预取模型分析   总被引:1,自引:0,他引:1  
WWW的快速增长导致网络拥塞和服务器超载。缓存技术被认为是减轻服务器负载、减少网络拥塞、降低客户访问延迟的有效途径之一,但作用有限。为进一步提高WWW性能,引入了预取技术。文中首先介绍了Web预取技术的基本思想及其研究可行性,然后分析了现有Web预取模型,最后给出了一个Web预取模型应具有的关键属性。  相似文献   

10.
缩短Web访问中的用户感知时间,是Web应用中的一个重要问题,服务器需要预测用户未来的HTTP请求和处理当前的网页以提高Web服务器的响应速度,为此提出了一种基于用户访问模式的Web预取算法.该算法根据Web日志信息分析了用户的访问模式,并计算出Web页面间的转移概率,以此作为对用户未来请求预取的依据.实验结果表明,该预取算法能有效提高预测精度和命中率,有效地缩短了用户的感知时间.  相似文献   

11.
Distributed shared memory (DSM) systems provide a simple programming paradigm for networks of workstations, which are gaining popularity due to their cost-effective high computing power. However, DSM systems usually exhibit poor performance due to the large communication delay between the nodes; and a lot of different memory consistency models have been proposed to mask the network delay. In this paper, we propose an asynchronous protocol for the release consistent memory model, which we call an Asynchronous Release Consistency (ARC) protocol. Unlike other protocols where the communication adheres to the synchronous request/receive paradigm, the ARC protocol is asynchronous, such that the necessary pages are broadcast before they are requested. Hence, the network delay can be reduced by proper prefetching of necessary pages. We have also compared the performance of the ARC protocol with the lazy release protocol by running standard benchmark programs; and the experimental results showed that the ARC protocol achieves a performance improvement of up to 29%.  相似文献   

12.
张卫丰  徐宝文 《计算机应用》2005,25(9):1992-1994,1998
如何有效充分地利用WWW缓冲中的信息,其关键是建立一个合适的用户兴趣模型和构造合适的兴趣挖掘算法。用户的兴趣是一个相对模糊的概念,简单兴趣模型通过(词条,权重)来刻画兴趣,但是它的表示粒度太小,不能贴切地描述用户的兴趣。文中在充分分析WWW缓冲模型的基础上提出了基于粗糙集的用户模糊兴趣概念。利用该方法可以对WWW缓冲中的网页文档和文档集合进行统一建模,这为利用用户历史兴趣信息和进行兴趣匹配提供了便利。  相似文献   

13.
预取技术通过在用户浏览当前网页的时间内提前取回其将来最有可能请求的网页来减少实际感知的获取网页的时间.传统的Markov链模型是一种简单而有效的预测模型,但同时存在预测准确率偏低,存储复杂度偏高等缺点.通过提出一种算法来减小存储空间,最后通过证明能有效减小存储空间.  相似文献   

14.
As social media services such as Twitter and Facebook are gaining popularity, the amount of information published from those services is explosively growing. Most of them use feeds to facilitate distribution of a huge volume of content they publish. In this context, many users subscribe to feeds to acquire up-to-date information through feed aggregation services, and recent real-time search engines also increasingly utilize feeds to promptly find recent web content when it is produced. Accordingly, it is necessary for such services to effectively fetch feeds for minimizing fetching delay, while at the same time maximizing the number of fetched entries. Fetching delay is a time lag between entry publication and retrieval, which is primarily incurred by finiteness of fetching resources. In this paper, we consider a polling-based approach among the methods applicable to fetching feeds, which bases on a specific schedule for visiting feeds. While the existing polling-based approaches have focused on the allocation of fetching resources to feeds in order to either reduce the fetching delay or increase the number of fetched entries, we propose a resource allocation policy that can optimize both objectives. Extensive experiments have been carried out to evaluate the proposed model, in comparison with the existing alternative methods.  相似文献   

15.
基于概率模型的主题爬虫的研究和实现   总被引:1,自引:1,他引:0  
在现有多种主题爬虫的基础上,提出了一种基于概率模型的主题爬虫。它综合抓取过程中获得的多方面的特征信息来进行分析,并运用概率模型计算每个URL的优先值,从而对URL进行过滤和排序。基于概率模型的主题爬虫解决了大多数爬虫抓取策略单一这个缺陷,它与以往主题爬虫的不同之处是除了使用主题相关度评价指标外,还使用了历史评价指标和网页质量评价指标,较好地解决了"主题漂移"和"隧道穿越"问题,同时保证了资源的质量。最后通过多组实验验证了其在主题网页召回率和平均主题相关度上的优越性。  相似文献   

16.
Web is flooded with data. While the crawler is responsible for accessing these web pages and giving it to the indexer for making them available to the users of search engine, the rate at which these web pages change has created the necessity for the crawler to employ refresh strategies to give updated/modified content to the search engine users. Furthermore, Deep web is that part of the web that has alarmingly abundant amounts of quality data (when compared to normal/surface web) but not technically accessible to a search engine’s crawler. The existing deep web crawl methods helps to access the deep web data from the result pages that are generated by filling forms with a set of queries and accessing the web databases through them. However, these methods suffer from not being able to maintain the freshness of the local databases. Both the surface web and the deep web needs an incremental crawl associated with the normal crawl architecture to overcome this problem. Crawling the deep web requires the selection of an appropriate set of queries so that they can cover almost all the records in the data source and in addition the overlapping of records should be low so that network utilization is reduced. An incremental crawl adds to an increase in the network utilization with every increment. Therefore, a reduced query set as described earlier should be used in order to minimize the network utilization. Our contributions in this work are the design of a probabilistic approach based incremental crawler to handle the dynamic changes of the surface web pages, adapting the above mentioned method with a modification to handle the dynamic changes in the deep web databases, a new evaluation measure called the ‘Crawl-hit rate’ to evaluate the efficiency of the incremental crawler in terms of the number of times the crawl is actually necessary in the predicted time and a semantic weighted set covering algorithm for reducing the queries so that the network cost is reduced for every increment of the crawl without any compromise in the number of records retrieved. The evaluation of incremental crawler shows a good improvement in the freshness of the databases and a good Crawl-hit rate (83 % for web pages and 81 % for deep web databases) with a lesser over head when compared to the baseline.  相似文献   

17.
当今网络中通过网页来种植木马的现象已很普遍。利用网页来传播木马技术就是将木马的域名隐藏在网页里,用户在浏览网页时,隐藏在网页中的木马就会被种植到用户的系统中。因此如果被访问的网页嵌入了木马的域名,那么当网络用户发出链接请求响应时,网络的响应将变得异常。基于上述原因,本文从链接请求响应次数的角度,来判断网页中是否藏有木马域名。首先简介木马技术,网页挂马技术和中介的基本概念,然后给出检测函数y=f(x)以及MMTD在检测木马上的应用,最后给出具体检测算法。  相似文献   

18.
随着网络技术和电力信息化业务的不断发展,网络信息越发膨胀,将导致互联网和电力信息网中存在海量网页冗余的现象,这类现象将会使数据挖掘、快速检索的复杂度加大,从而对网络设备和存储设备的性能带来了巨大的挑战,因此研究海量网页快速去重是非常有必要的。网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,其中基于同源网页的URL去重的研究已经取得了很大的发,但是针对海量网页去重问题,目前还没有很好的解决方案,本文在基于MD5指纹库网页去重算法的基础上,结合Counting Bloom filter算法的特性,提出了一种快速去重算法IMP-CMFilter。该算法通过减少I/0频繁操作,来提高海量网页去重的效率。实验表明,IMP-CMFilter算法的有效性。  相似文献   

19.
Linux下网页监控与恢复系统的设计与实现   总被引:1,自引:0,他引:1  
Internet上部署了大量的Web服务,随着各种网络攻击事件愈演愈烈,Web网页及后台数据的安全问题成了亟需解决的问题。对网页监控和数据库保护技术进行研究,针对Web网页的特点及安全需求,设计并实现了网页监测控和恢复系统。该监控系统基于C/S模式的三层体系结构,针对网页安全和数据库的安全漏洞进行了增强的保护,对网页及数据库数据实时监控,当发现网页及数据库被篡改时能及时恢复,保护了Web网站的安全。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号