首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
文章研究了在渗透测试中Web站点的信息抓取的问题.针对Web渗透测试对于信息抓取的全面性、高效性的需求,本文通过对Web站点进行研究分析,提出了基于导航链接的网络爬虫策略,并通过减少迭代次数对传统的MD5去重算法进行了改进,优化了URL去重的效率.通过实验验证表明,该爬虫策略的信息抓取覆盖率和网页下载效率均有所提高.  相似文献   

2.
针对串行PageRank算法在处理海量网页数据时效率低下的问题,提出一种基于网页链接分类的PageRank并行算法.首先,将网页按照网页所属网站分类,为来自不同站点的网页设置不同的权重;其次,利用Hadoop并行计算框架,结合MapReduce分而治之的特点,并行计算网页排名;最后,采用一种包含3层:数据层、预处理层、计算层的数据压缩方法,对并行算法进行优化.实验结果表明,与串行PageRank算法相比,所提算法在最好情况下结果准确率提高了12%,计算效率提高了33%.  相似文献   

3.
通过研究搜索引擎收录网页和对搜索结果排名的基本原理,根据ASP.NET网站架构的特殊性,提出了基于ASP.NET网站进行搜索引擎优化的基本策略。  相似文献   

4.
为确保及时准确地获取监测网站的突发事件网络舆情数据,提出了一种基于突发事件热度的站点地图构建算法。该算法利用突发事件主题词典和改进Shark search算法采集样本网页,在此基础上对目标网站的超链接结构进行数据挖掘,完整构建出含有网站各版块突发事件热度的站点地图。以该站点地图为指导的网页采集器能够及时调整更新频率,准确采集所需网页,较好地适应监测网站的动态变化。实验表明,在站点地图的指导下,突发事件相关网页的采集有效性和效率均有明显提高。  相似文献   

5.
大型网站是网络信息的核心,其信息规模之大,更新速度之快是中小型网站不可比拟的,对大型网站网页搜索的好坏直接影响搜索引擎的整体性能.本文在分析分类网页更新策略的基础上,根据大型网站本身的特点提出了一种增量式信息更新方法.实验分析表明,这种增量式信息更新方法很大程度上提高了大型网站搜索引擎网页的更新效率.  相似文献   

6.
提出了一种结合页面内容和站点结构的Markov模型,该模型应用于网页预取。传统的Markov模型是基于历史的模型,将对用户以往的使用记录的统计应用于网页预取。本文通过在Markov模型之上,结合页面内容及站点结构来调整状态转移矩阵,以获得更精确的预取结果,提高Web服务的质量。性能测试结果表明,该模型具有较好的性能。  相似文献   

7.
介绍了图像在网站中的作用,简单阐述了网页设计的概念和分类,说明了网站中常见的图像类别,并对其中最常见的两类图片和GIF动态图片进行了详细研究;对图片的传输和展示进行了性能优化方面的探讨;对GIF动态图片研究了其基本格式和处理技巧,在网页设计时对常见图像进行了合理处理,可以极大地提升网站的用户体验,提高用户的满意度.  相似文献   

8.
从理论上分析了一种自适应网站性能优化算法.该算法以Web站点的URL为行、以用户的UserID为列,建立URL_UserID关联矩阵,对行向量进行分析获得频繁闭相关页面集,对频繁闭相关页面集进一步处理发现频繁访问路径.Web站点可根据频繁路径自动改进链接结构,提高Web站点对所有用户的整体服务性能.  相似文献   

9.
随着计算机应用的网络化,不少企业都在Internet上建有自己的网站,希望通过网站树立企业形象.推销企业产品。但由于受人力和财力的限制,使他们在网站建设上不能有太多的投入。特别是一些中小企业,计算机设备比较落后.它们的网站或是建立在Internet的免费空间上,或是租用ISP的硬盘空间。这样的建网方案在技术上给设计人员带来很大的制约,使网站的开发和维护变得更为复杂。大家都知道,开发一个Web站点是一件很困难很费时的工作,尤其是进行网页制作、编写应用程序及设计界面等。而且初建网络时经验不足,不少事情还处在实验摸索阶段,更需要在网页发布到Web服务器之前进行反复测试。因此要办出一个高质量的Web站点,建立一个脱机环境下的网站开发和测试平台是十分必要的。换句话说,就是在企业还没有条件设立自己的Web服务器情况下,在PC机上配置个人Web服务器(Personal Web Server,PWS)。在其上建立网站,并测试网站,然后再发布到Internet上。这样做既经济又易于实现,而且对提高网站的质量、加快网站建设和内容更新周期,以及为条件有限的企业办好网站提供了一种经济实用的解决方案。  相似文献   

10.
SEO技术即搜索引擎优化技术,通过利用搜索引擎收录网页和对搜索结果排序的行为规律对网站进行规划和建设,使得网站在搜索引擎的搜索结果中的排名比较靠前.在中小型企业的网站推广中,有效利用SEO技术,投入小,效果显著,有利于提高企业的竞争力.  相似文献   

11.
12.
针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各“块”对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作为两个网页的相似度。该算法充分考虑结构差别较大的网页对网页正文提取的影响,通过计算网页间相似度将网页聚类,使得同一簇中的网页正文提取结果更加准确。实验结果表明,该方法具有更高的准确率,各项评价指标均有所提高。  相似文献   

13.
熊智  郭成城 《计算机工程》2008,34(5):110-112
HTTP/1.1的持续连接特性会给基于内容请求分发的Web集群服务器带来额外的开销。为减少这种开销,可将用户经常一起访问的网页组成簇并以簇为单位来分布文档。如何衡量网页间的距离是网页组簇的关键问题。该文提出一种基于马尔可夫链的衡量网页间距离的方法,该方法同时考虑了用户访问的时间相关性和用户的访问路径。实例表明,与基于时间相关性的衡量网页间距离的方法相比,采用该衡量方法能更有效地减少网页组簇后HTTP/1.1持续连接所带来的额外开销。  相似文献   

14.
Collaborative social annotation systems allow users to record and share their original keywords or tag attachments to Web resources such as Web pages, photos, or videos. These annotations are a method for organizing and labeling information. They have the potential to help users navigate the Web and locate the needed resources. However, since annotations are posted by users under no central control, there exist problems such as spam and synonymous annotations. To efficiently use annotation information to facilitate knowledge discovery from the Web, it is advantageous if we organize social annotations from semantic perspective and embed them into algorithms for knowledge discovery. This inspires the Web page recommendation with annotations, in which users and Web pages are clustered so that semantically similar items can be related. In this paper we propose four graphic models which cluster users, Web pages and annotations and recommend Web pages for given users by assigning items to the right cluster first. The algorithms are then compared to the classical collaborative filtering recommendation method on a real-world data set. Our result indicates that the graphic models provide better recommendation performance and are robust to fit for the real applications.  相似文献   

15.
在对网页相似度分析的基础上,提出网页多词元快速聚类算法,这种算法针对中文,采用词元相似度聚类方法,利用一元组相似度判断对网页进行快速初步聚类,然后在此结果中利用二元组相似度判断进行精确聚类,兼顾了聚类精度和速度的要求。  相似文献   

16.
一种新的基于Web日志的挖掘用户浏览偏爱路径的方法   总被引:2,自引:0,他引:2  
任永功  付玉  张亮  吕君义 《计算机科学》2008,35(10):192-196
提出了一种新的基于Web日志的挖掘用户浏览偏爱路径的方法.该方法首先在单元数组存储结构(存储矩阵)基础上建立以浏览兴趣度为基本元素的会话矩阵和路径矩阵.然后,在会话矩阵上采用两个页面向量夹角余弦作为相似用户的页面距离公式进行页面聚类,求得相似用户的相关页面集.最后,利用路径选择偏爱度在相似用户的路径矩阵上挖掘出相似用户的浏览偏爱路径.实验证明此方法是合理有效的,能够得到更准确的偏爱路径.  相似文献   

17.
Given a user keyword query, current Web search engines return a list of individual Web pages ranked by their "goodness" with respect to the query. Thus, the basic unit for search and retrieval is an individual page, even though information on a topic is often spread across multiple pages. This degrades the quality of search results, especially for long or uncorrelated (multitopic) queries (in which individual keywords rarely occur together in the same document), where a single page is unlikely to satisfy the user's information need. We propose a technique that, given a keyword query, on the fly generates new pages, called composed pages, which contain all query keywords. The composed pages are generated by extracting and stitching together relevant pieces from hyperlinked Web pages and retaining links to the original Web pages. To rank the composed pages, we consider both the hyperlink structure of the original pages and the associations between the keywords within each page. Furthermore, we present and experimentally evaluate heuristic algorithms to efficiently generate the top composed pages. The quality of our method is compared to current approaches by using user surveys. Finally, we also show how our techniques can be used to perform query-specific summarization of Web pages.  相似文献   

18.
基于矩阵聚类的页面预测研究   总被引:1,自引:1,他引:1  
提出一种基于Web日志的分析方法,构建UserID—URL关联矩阵,通过矩阵聚类进行页面预测,为了加快聚类逑度和效果,引进PingPong算法,实验表明基于矩阵聚类的页面预测达到较高的命中率。  相似文献   

19.
This paper presents a Page rank-based prefetching technique for accesses to Web page clusters. The approach uses the link structure of a requested page to determine the “most important” linked pages and to identify the page(s) to be prefetched. The underlying premise of our approach is that in the case of cluster accesses, the next pages requested by users of the Web server are typically based on the current and previous pages requested. Furthermore, if the requested pages have a lot of links to some “important” page, that page has a higher probability of being the next one requested. An experimental evaluation of the prefetching mechanism is presented using real server logs. The results show that the Page rank-based scheme does better than random prefetching for clustered accesses, with hit rates of 90% in some cases.  相似文献   

20.
运用XML和XSLT技术实现Web页面的重用   总被引:7,自引:0,他引:7  
李伟  郑宁 《计算机应用》2004,24(3):103-105
从分析页面结构特征入手,运用XML和XSLT技术实现Web页面的重用。该方法用动态XML文件定义页面的组成,用XSLT文件定义页面布局,通过XSLT转化把二者统一起来得到最终的页面。页面布局与页面组成的分离实现了页面布局和页面组成块的重用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号