首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于链接路径预测的聚焦Web实体搜索   总被引:1,自引:1,他引:0  
实体搜索是一个有前景的研究领域,因为它能够为用户提供更为详细的Web信息.快速、完全地收集特定领域实体所在的网页是实体搜索中的一个关键问题.为了解决这个问题,将Web网站建模为一组互连的状态构成的图,提出一种链接路径预测学习算法LPC,该模型能够学习大型网站中从主页通向目标网页的最优路径,从而指导爬虫快速定位到含有Web实体的目标网页.LPC算法分为两个阶段:首先,使用概率无向图模型CRF,学习从网站主页通往目标网页的链接路径模型,CRF模型能够融合超连接和网页中的各种特征,包括状态特征和转移特征;其次,结合增强学习技术和训练的CRF模型对爬行前端队列的超链接进行优先级评分.一种来自增强学习的折扣回报方法通过利用路径分类阶段学习的CRF模型来计算连接的回报值.在多个领域大量真实数据上的实验结果表明,所提出的适用CRF模型指导的链接路径预测爬行算法LPC的性能明显优于其他聚焦爬行算法.  相似文献   

2.
基于网站影响力的网页排序算法   总被引:1,自引:0,他引:1  
张芳  郭常盈 《计算机应用》2012,32(6):1666-1669
传统的排序算法主要是根据网页之间的链接关系进行排序,没有考虑到网站与网页之间互相增强的关系和用户对网页的重要性的评价。为此提出了一种基于更新时间、网页权威性和用户对网页的反映的相关排序算法。该算法以网站为节点计算每个网站权威值,在为网页分配权威值时考虑了网页在网站内的位置和用户对其的反映,并通过网站与网页之间相互影响的关系来相互反馈。实验结果表明,与传统的PageRank、HITS等排序算法相比,该算法在检索性能上有明显提高。  相似文献   

3.
王有为  汪定伟 《控制与决策》2002,17(Z1):695-698
提出链接可达性和网页可达性的定义.为计算网页可达性,设计了计算到达网页路径的路径树生成算法(PTSA).基于极大化网页重要性与网页可达性之间相关性的链接结构设计思想,建立一种网站最优链接结构设计的数学模型,并提出将PTSA嵌入禁忌搜索的求解方法.实验结果表明,该方法可帮助网站设计者建设链接结构合理的电子超市网站.  相似文献   

4.
基于Web-LogMining寻找目标网页最优期望定位   总被引:1,自引:0,他引:1  
丛蓉  王秀坤  吴军  周岩 《计算机工程与应用》2004,40(34):151-153,178
为了优化网站的访问效能,实现网站实际结构与用户的使用行为相吻合,该文主要应用Web挖掘技术,以网站的服务器Web日志作为数据源,使用算法FEL和算法CRLL从用户访问事务序列中寻找目标网页的期望定位,并以最少“后退”次数为原则生成推荐链接列表。网站设计者可根据该列表,修改网页之间的链接关系,达到减少对目标网页搜索时间的目的。  相似文献   

5.
一种改进的搜索引擎网页排序算法   总被引:1,自引:0,他引:1  
本文在分析目前流行的基于链接分析的搜索引擎网页排序算法的基础上,指出基于链接分析网页排序算法未充分考虑网站性能因素.针对这一缺点,本文提出了一种改进的网页排序算法,它考虑了网站的性能等因素,对提高搜索引擎的服务质量有很好的参考价值.  相似文献   

6.
王冲  曹姗姗 《计算机应用》2014,34(12):3502-3506
针对传统PageRank算法存在主题漂移、忽略用户兴趣及偏向旧网页的问题,提出一种基于用户反馈与主题关联度的网页排序改进算法。该算法为了更好满足用户的检索需求,利用用户对链接的点击量、链接结构及网页浏览时间来构成用户反馈因子,同时结合网页内容的主题关联度因子,共同对网页PR值进行适当修正与合理分配。为了改善网页排序的效果,算法通过添加时间相关因子,对新网页作出一定补偿,使得新网页一定程度上浮,旧网页下沉。实验结果表明,所提算法在相同实验环境下,相对于传统PageRank算法,提升了用户搜索满意度平均值约2.1%,达到了优化网页排序效果的预期研究目标。  相似文献   

7.
基于归类的链接分析技术   总被引:1,自引:0,他引:1  
王元珍  陈涛 《计算机工程与应用》2005,41(13):172-173,203
在目前主流搜索引擎中,链接分析是最常用的计算网页价值度的工具,但是对于用户输入比较宽泛的查询主题,链接分析算法很难得到一个令所有用户都满意的结果。论文试图从另外一个角度来改进链接分析算法,即在传统的链接分析基础上,增加Web聚类算法的有关思想,并对这两种算法进行了改进和组合,提出了一种基于归类的链接分析技术,并用实验结果证明了该算法的性能。  相似文献   

8.
基于网页链接与用户反馈的PageRank算法改进研究   总被引:1,自引:0,他引:1  
曹姗姗  王冲 《计算机科学》2014,41(12):179-182
在网页链接结构的排序算法PageRank的基础上,提出了一种改进的Bias PageRank(BPR)算法。为了提高用户对网页排序结果的满意度,该算法结合网页链接结构与用户反馈信息(点击率、最近一次点击时间等)进行综合分析,从而从网页设计与用户角度共同对网页PR值进行合理分配,以在一定程度上达到高质量网页尽量排序靠前、信息价值低的网页尽量下沉的目的。仿真实验表明,BPR算法在一定程度上改善了排序效果,提升了用户信息检索满意度。  相似文献   

9.
王有为  汪定伟 《控制与决策》2002,17(11):695-698
提出链接可达性和网页可达性的定义,为计算网页可达性,设计了计算到达网页路径路的路径权地生成算法(PTSA)。基于极大化网页重要与网页可达性之间相关性的链接结构设计思想,建立一种网站最优链接结构设计的数学模型,并提出将PTSA嵌入禁忌搜索的求解方法。实验结果表明,该方法可帮助网站设计建设链接结构合理的电子超市网站。  相似文献   

10.
定义了链接可达性和网页可达性的概念.为计算网页可达性,设计了计算到达网页路 径的路径树生成算法(PTSA).建立了一种极大化网页访问率与可达性之间相关性的网站链接 结构调整的数学模型,并提出将PTSA嵌入禁忌搜索的求解方法.试验结果表明本文的方法可 以帮助网站设计者改进网站的链接结构.  相似文献   

11.
缩短Web访问中的用户感知时间,是Web应用中的一个重要问题,服务器需要预测用户未来的HTTP请求和处理当前的网页以提高Web服务器的响应速度,为此提出了一种基于用户访问模式的Web预取算法.该算法根据Web日志信息分析了用户的访问模式,并计算出Web页面间的转移概率,以此作为对用户未来请求预取的依据.实验结果表明,该预取算法能有效提高预测精度和命中率,有效地缩短了用户的感知时间.  相似文献   

12.
The protocols used by the majority of Web transactions are HTTP/1.0 and HTTP/1.1. HTTP/1.0 is typically used with multiple concurrent connections between client and server during the process of Web page retrieval. This approach is inefficient because of the overhead of setting up and tearing down many TCP connections and because of the load imposed on servers and routers. HTTP/1.1 attempts to solve these problems through the use of persistent connections and pipelined requests, but there is inconsistent support for persistent connections, particularly with pipelining, from Web servers, user agents, and intermediaries. In addition, the use of persistent connections in HTTP/1.1 creates the problem of non-deterministic connection duration. Web browsers continue to open multiple concurrent TCP connections to the same server. This paper examines the idea of packaging the set of objects embedded on a Web page into a single bundle object for retrieval by clients. Based on measurements from popular Web sites and an implementation of the bundle mechanism, we show that if embedded objects on a Web page are delivered to clients as a single bundle, the response time experienced by clients is better than that provided by currently deployed mechanisms. Our results indicate that the use of bundles provides shorter overall download times and reduced average object delays as compared to HTTP/1.0 and HTTP/1.1. This approach also reduces the load on the network and servers. Implementation of the mechanism requires no changes to the HTTP protocol.  相似文献   

13.
熊智  郭成城 《计算机工程》2008,34(5):110-112
HTTP/1.1的持续连接特性会给基于内容请求分发的Web集群服务器带来额外的开销。为减少这种开销,可将用户经常一起访问的网页组成簇并以簇为单位来分布文档。如何衡量网页间的距离是网页组簇的关键问题。该文提出一种基于马尔可夫链的衡量网页间距离的方法,该方法同时考虑了用户访问的时间相关性和用户的访问路径。实例表明,与基于时间相关性的衡量网页间距离的方法相比,采用该衡量方法能更有效地减少网页组簇后HTTP/1.1持续连接所带来的额外开销。  相似文献   

14.
模仿正常访问行为的HTTP泛洪攻击较为隐蔽,在消耗网站服务器资源的同时还带来信息安全隐患,提出了一种主动防御方法。用URL重写的方法使Web日志记录HTTP请求的CookieId和SessionId;定时分析Web日志,利用CookieId和SessionID识别用户,根据请求时间特征来识别傀儡主机;对HTTP请求进行预处理,拦截傀儡主机的请求。该方法成本低、便于实施,实践证明了其有效性。  相似文献   

15.
基于Linux嵌入式HTTP网络服务器的设计与实现   总被引:6,自引:0,他引:6  
刘殿敏  李科杰 《计算机工程》2004,30(23):193-195
介绍了基于PXA250和Linux嵌入式HTTP网络服务器的硬件、软件设计与实现。描述了基于PXA250嵌入式系统硬件设计原理,多进程和多线程并发连接嵌入式HTTP网络服务器软件算法和程序没计。程序设计基于HTTP,协议作为软件开发的基础,主要包括3个关键内容:一个标准HTML页的发送和接收,客户端向嵌入式HTTP网络服务器发送Web表单请求时的通信和CGI接口程序。探讨了多个线程共享数据资源,并且安全可靠地工作。用互斥锁和条件变量技术解决了由并发产生的同步问题。  相似文献   

16.
针对目前通用的Web服务器上未实现有效的QoS控制的现状以及Web QoS控制灵活性不够、通用性不强、可扩展性不好等缺点,提出了一种基于请求目标分类的Web QoS动态控制模型,采用以控制响应时间为中心的动态控制策略,对HTTP请求进行基于目标分类的动态接纳控制以及动态的重配置处理。实验结果表明,该方法可以显著减少系统响应时间,并保证在高负载下的吞吐量的平稳性。  相似文献   

17.
万军  周丽婕 《现代计算机》2007,(11):142-144
利用ARM开发平台,设计了基于嵌入式Web服务器的数据监控系统方案,实现了一个具体基于串口的数据监控系统.该系统选择Boa服务器作为HTTP服务器,通过串口采集数据实时显示在用户浏览器上,并且可动态修改数据由串口发送到外部设备.  相似文献   

18.
基于Flex和BlazeDS推技术实现WEB方式实时监控系统   总被引:1,自引:0,他引:1  
监控系统逐步向B/S框架结构^[1]转变,但由于HTTP协议固有的缺陷,使WEB模式在工业监控实时领域应用一直不尽人意,AJAX技术出现虽然解决了异步通讯和页面刷新问题^[2],但其依然使用HTTP请求拉方式(Pull)并没有真正解决实时问题。Flex技术和BlazeDS^[3]技术的出现,结合消息服务技术实现的推技术(Push),解决了实时难题,彻底实现了Web实时监控工作模式。  相似文献   

19.
Web技术是采用HTTP或HTTPS协议对外提供服务的应用程序,Web应用也逐渐成为软件开发的主流之一,但Web应用中存在的各种安全漏洞也逐渐暴露出来,如SQL注入、XSS漏洞,给人们带来巨大的经济损失.为解决Web网站安全问题,文章通过对Web常用漏洞如SQL注入和XSS的研究,提出了一种新的漏洞检测方法,一种基于漏洞规则库、使用网络爬虫检测SQL注入和XSS的技术.网络爬虫使用HTTP协议和URL链接来遍历获取网页信息,通过得到的网页链接,并逐步读取漏洞规则库里的规则,构造成可检测出漏洞的链接形式,自动对得到的网页链接发起GET请求以及POST请求,这个过程一直重复,直到规则库里的漏洞库全部读取构造完毕,然后继续使用网络爬虫和正则表达式获取网页信息,重复上述过程,这样便实现了检测SQL注入和XSS漏洞的目的.此方法丰富了Web漏洞检测的手段,增加了被检测网页的数量,同时涵盖了HTTP GET和HTTP POST两种请求方式,最后通过实验验证了利用此技术对Web网站进行安全检测的可行性,能够准确检测网站是否含有SQL注入和XSS漏洞.  相似文献   

20.
数据挖掘技术在Web预取中的应用研究   总被引:69,自引:0,他引:69  
WWW以其多媒体的传输及良好的交互性而倍受青睐,虽然近几年来网络速度得到了很大的提高,但是由于接入Internet的用户数量剧增以及Web服务和网络固有的延迟,使得网络越来越拥护,用户的服务质量得不到很好的保证。为此文中提出了一种智能Web预取技术,它能够加快用户浏览Web页面时获取页面的速度。该技术通过简化的WWW数据模型表示用户浏览器缓冲器中的数据,在此基础上利用数据挖掘技术挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据。在用户端,智能代理负责用户兴趣的挖掘及基于兴趣关联知识库的Web预取,从而对用户实现透明的浏览器加速。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号