首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
由于Web前端技术和反爬虫技术的发展,系统的复杂性也在逐渐增大,爬虫在爬取数据时获取动态网页数据、应对反网络爬虫以及集群稳定性还存在问题,这些问题对爬虫系统获取动态网页数据的效率存在着很大影响。文章基于分布式网络的爬虫器,对上述问题进行了深入的研究和分析。首先,对所设计的分布式爬虫系统进行了需求分析;其次,结合系统需求,给出了系统整体结构和各模块的设计;最后,重点分析了系统中的关键技术,即爬虫的健壮性分析、网页动态加载分析。  相似文献   

2.
动态网页是指网页能依据不同的情况做出动态的响应。在对基于模板的动态网页设计问题进行分析的基础上,使用JSP这种动态网页技术,并使用Struts模板标签,说明模板技术是如何将网页所要实现的功能和网页中的图形、文字等的布局进行分离的,并把模板库思想动态网页相结合,最终将页面按照整体各部分的功能类型分类,总结归纳出多个不同的页面模板,组成一种小型应用系统的常用模板库。  相似文献   

3.
孔英会  高育栋 《电视技术》2015,39(20):54-58
构建基于Watir的物联网Web事件处理系统框架。首先搭建Zigbee无线传感器网络,把终端节点的属性描述到网页并进行服务器部署,其中用微数据来描述每一个传感器的静态属性,用Js文件描述动态属性,然后采用Web自动化测试框架Watir,通过Css Selector定位技术实现对动态页面数据的实时采集,将实时采集的数据通过预处理后添加事件处理,提取关键和有效的事件数据并保存。同时利用Watir对多个事件条件下不同平台的物联网网页进行测试,结果表明基于Watir的物联网Web事件处理方法能准确和高效地获取事件数据。  相似文献   

4.
宋宝杰 《电子科技》2006,(12):49-51,56
通过分析高校体育网页建设的可行性及现状,提出了基于Internet的体育教学信息网页的总体设计,简要介绍了系统各功能模块及数据库设计,讨论了采用ASP、JavaScript技术及ACCESS开发系统的数据库访问技术和动态网页制作技术,并给出了部分实现代码.  相似文献   

5.
刘贺  郝增帅  赵婷 《电子测试》2014,(22):87-92
随着互联网的迅猛发展,网页已经成为人们日常发布和获取信息的重要途径,给人们带来了极大的便利。然而,安全挑战也随之而来,层出不穷的网页入侵手段严重影响着互联网的长远应用和发展,尤其是网页挂马是一个十分泛滥的攻击方式,严重威胁着用户安全。针对此问题,本文提出了一种基于沙箱技术的检测系统,能够动态地检测和抵御网页木马攻击。在安全性上,所提系统通过高交互蜜罐中多个沙箱技术,动态地模拟网页木马攻击过程,进而能够分析和抵御应用层、系统层和内核层的恶意行为,实现了多层检测。在效率上,所提系统采用了轻量级的沙箱技术,在内核层涉及较少调用,着重在应用层HOOK相关API实现检测,提高了效率表现。实验评估分析表明,所提系统能够获得较好的性能。  相似文献   

6.
本文给出了一种中文网页消重算法,具体研究了该算法中用到的网页主体指纹获取和重复性判断的方法,并采用二叉排序树存储结构实现中文网页消重算法。实验证明该算法能够有效地提高检索的质量,返回给用户更为精确的结果。  相似文献   

7.
刘星彤  孟放 《电视技术》2016,40(12):77-82
用户在浏览网页时,会因为视觉感知特性、自身浏览习惯及网页布局引导等因素的影响,对网页各区域的关注程度以及浏览顺序形成某种固有的视觉浏览模式.该浏览模式可为新闻网页的布局优化提供依据,提升用户对新闻信息的获取效率,并为网页的可用性提供评价标准.借助眼动仪获取用户在浏览网页时的视点运动信息.首先基于用户的浏览习惯,通过预实验将新闻网页划分为若干个兴趣区域;然后统计用户在不同区域的视点数据,以获取用户对不同区域的关注程度和浏览顺序,从而分析用户在网页浏览中的视觉浏览模式.以凤凰资讯网站为例,对用户在浏览新闻网页时的关注模式进行了分析.  相似文献   

8.
为了解决网页可能被篡改的问题,提出了两个基于信息隐藏的网页认证协议,分析并比较了两个协议的特点。然后提出了一种利用GIF图像的调色板来隐藏网页的数字签名的方法,实现了极佳的透明性和较大的嵌入容量。理论分析和实验结果表明,提出的协议和算法可用于保护现有的网站和网页系统。  相似文献   

9.
10.
鉴于传统的检测方案无法准确地检测复杂多变的网页木马行为,文中提出一种基于行为特征权重分析的检测模型。总结网页木马的典型行为,利用权重分析的方法进行综合评价,最终根据阈值判别待检测脚本文件是否是网页木马。实验表明,该方法可以有效地检测网页木马,提高检测效率。该检测模型是对基于特征码检测技术的补充,在新型网页木马不断涌现的今天,在基于特征码检测技术中,具有一定的应用意义。  相似文献   

11.
基于改进HTML-Tree的中文网页特征向量提取方法   总被引:1,自引:0,他引:1  
中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键.经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取.该方法充分利用不同类别网页的特点,考虑了网页内各种元素权重的贡献.经过实验验证,该方法提高了网页特征向量提取的效率,有效提高了中文网页分类的准确度和召回度.  相似文献   

12.
基于BP神经网络的Web页面分类算法   总被引:3,自引:0,他引:3  
提出了一种基于BP神经网络的Web页面分类算法。在搜索引擎的结构中提取页面标题、内容标题和内容摘要来表示页面,采用向量空间模型计算分类组合与页面组合的相关性对页面进行矢量化,将训练后的BP神经网络用于对Web页面进行分类。实验结果表明,该分类算法有一定的实用价值。  相似文献   

13.
To understand website complexity deeply, a web page complexity measurement system is developed. The system measures the complexity of a web page at two levels: transport-level and content-level, using a packet trace-based approach rather than server or client logs. Packet traces surpass others in the amount of information contained. Quantitative analyses show that different categories of web pages have different complexity characteristics. Experimental results show that a news web page usually loads much more elements at more accessing levels from much more web servers within diverse administrative domains over much more concurrent transmission control protocol (TCP) flows. About more than half of education pages each only involve a few logical servers, where most of elements of a web page are fetched only from one or two logical servers. The number of content types for web game traffic after login is usually least. The system can help web page designers to design more efficient web pages, and help researchers or Internet users to know communication details.  相似文献   

14.
从互联网上挖掘大量双语平行句对,可以快速有效地构建大规模双语资源,服务于统计机器翻译。从挖掘对象的不同,将网络数据源分成对照网页和平行网页两类,提出一种抽取双语句对的方法。首先,从上述两类网页中分别抽取平行文本段,对照网页文本段抽取的主要方法为页面过滤和模板匹配,而平行网页依赖于网页结构的相似,采用对应节点匹配方法;其次,采用Gale-Church算法进行句对齐,得到平行句对;最后统一进行后处理。实验结果表明,从对照网页获取平行句对的准确率达到93.3%,平行网页为93.5%。  相似文献   

15.
陕西高校体育网站的现状与对策   总被引:2,自引:0,他引:2  
采用网络资料检索、文献资料、专家访问等方法,对陕西35所高校体育网站的建设现状进行调查研究.结论:目前陕西高校体育网站的建设还处于初期,对体育网站建设的认识与关注程度淡泊,整体建设工作滞后.因此高校要根据网络功能及高校体育教育环境的特点,充分利用网络信息资源的优势,加快陕西高校体育网站的建设,为普及健全高校体育网络,促进高校网络教育视窗的快捷交流与发展提供参考.  相似文献   

16.
宋鳌   《电视技术》2011,35(13):44-48,63
提出了一种基于LCS的特征树最大相似性匹配网页去噪算法.通过将目标网页和相似网页转化为特征树,并将特征树映射为一个特征节点序列,利用LCS算法能获得最长子序列全局最优解的特点,找出两棵特征树之间的不同节点作为候选集,并对候选集进行聚集评分找出网页重要内容块.给出了算法的原型系统,并对每一个模块的实现做了详尽的描述.  相似文献   

17.
针对固态硬盘(SSD)的闪存转换层(FTL)策略诸如BAST、FAST增加了垃圾回收的成本,带来了固态硬盘性能的下降等缺点,提出了一种基于页面“写相关”的FTL策略PWRST。PWRST的基本思想是分析I/O请求的访问历史并找出“写相关”的页面,将“写相关”的页面存储到同一数据块。从而减少垃圾回收开销和I/O请求的平均响应时间。实验结果表明PWRST在Postmark和IOzone负载下的响应时间比BAST减少了35%,比FAST减少了26%。在TPC-C负载下的响应时间比BAST减少了12%,比FAST减少了10%。  相似文献   

18.
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

19.
一种评价搜索引擎信息覆盖率的模型及其验证   总被引:4,自引:0,他引:4  
孟涛  闫宏飞  李晓明 《电子学报》2003,31(8):1168-1172
搜索引擎的网页搜集子系统通常以WWW的网页构成的有向图结构为依据,循着网页间的链接进行搜集从而扩大信息覆盖面.本文针对这种信息覆盖能力,建立量化模型从多个角度考察搜集系统对WWW信息资源的覆盖程度.文章首先分析了网页搜集不完全性的若干因素,在指出信息覆盖率的研究意义后提出了三类重要的信息覆盖率概念,然后围绕其中的数量和质量覆盖率展开研究工作.在建立"采样-权值计算-验证"的覆盖率评测模型之后,以北大"燕穹"网页信息博物馆为考察对象并获得其网页数据,用不同的方式对中国Web进行采样;然后分别采用PageRank和HITS两种网页权值算法算出其中的重要网页作为样本,从量和质的角度考察"燕穹"系统的信息覆盖率,得到合理的数量和质量覆盖率值,从而验证了"燕穹"系统信息覆盖率结论的合理性和该信息覆盖率评测模型的可靠性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号