首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
针对Web应用测试用例生成过程中导航图规模过大以及存在冗余测试路径的问题,提出了一种基于Selenium页面对象设计模式和图遍历算法的Web应用测试用例生成方法。首先,通过将原始页面对象进行分类,以导航页面对象类为节点、导航方法为迁移边构建页面对象导航图;其次,结合图的最短路径算法提出了一种页面对象图算法(POGA)来遍历导航图以生成测试路径集;最后,提取测试路径,利用Faker生成模拟数据,进一步生成可以直接执行的测试用例。实验结果表明:与爬取Web应用生成导航图的规模相比,该方法约简率约为89%;与基于状态迁移生成Web应用测试用例的方法相比,该方法减小了冗余和不可行路径的数量,并进一步提高了页面对象的复用率和测试用例的可维护性。  相似文献   

2.
一种基于节点密度分割和标签传播的Web页面挖掘方法   总被引:1,自引:0,他引:1  
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性.  相似文献   

3.
随着Web前端的不断发展,Web页面变得越来越复杂,强交互性带来页面状态的疯涨,用于更新页面的DOM操作也越来越多。然而频繁的DOM操作使得页面渲染缓慢,造成前端性能瓶颈。在分析造成此问题原因的基础上,介绍一种由虚拟DOM和Diff算法来优化DOM操作的方法。通过分析传统Tree-Diff与DOM-Diff算法,对现有Diff算法做出改进。最后搭建测试平台,对改进后算法(Virtual-DOM)、React JS以及原生JS进行渲染性能测试,并对测试结果进行对比分析。测试结果表明:虚拟DOM确实可以优化浏览器的渲染性能,且在特定的情况下,DOM-Diff改进算法效果比React JS更理想。  相似文献   

4.
具有相似功能的Web应用,其页面样式和布局往往存在很大的相似性。针对当前Web页面开发复杂度高且效率低的情况,提出一种挖掘现有页面布局结构和样式属性的方法来实现Web页面自动化设计。该方法充分利用Web网页布局结构上的特点,采用分级处理的方式,首先利用页面分块算法思想通过相似度计算挖掘出具有相似性的代码块,其次通过结合RoSunday方法解析样式文件快速匹配出节点集合对应的样式表并建立文档模型树结构,各个子模块之间的相互组合可以实现页面的自动化设计。通过应用实例表明,该方法能动态地设计并生成页面,有效提升Web页面开发效率。  相似文献   

5.
Web页面相似度搜索对于网络新闻推荐、近似查询等研究领域具有重要作用。SimRank是经典的相似度计算模型,但其预计算时间和空间开销非常巨大,不适用大规模Web页面网络。利用SimRank快速收敛的特点,在SimRank基础上提出高效Web页面相似度搜索方法(WSR),预计算1步迭代相似度矩阵,根据预计算的1步迭代相似度矩阵在线计算给定查询页面和其他页面的2步迭代相似度。通过对Web网络进行静态剪枝,进一步提高预计算和在线查询处理的效率。实验结果显示,WSR显著降低了存储开销和预计算时间开销,且具有较高精确度和快速查询响应时间。  相似文献   

6.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。  相似文献   

7.
跨站脚本(XSS)漏洞是近年来较为流行的一种漏洞,随着Ajax技术的广泛应用,其危害性及快速的传播能力也越来越强。现有的漏洞检测技术没有充分对该类漏洞的漏洞注入点进行研究,使用的漏洞检测技术也没有充分考虑测试请求后响应的页面,导致漏洞检测率相对较低。针对现有漏洞检测技术的不足之处,加强对隐含页面的DOM结构分析,提出基于DOM状态改变的方式查找漏洞注入点的方法。在此基础上提出基于页面交互点相关的漏洞检测方法,设计并实现了漏洞检测原型系统。实验证明,该原型系统能够找到更多的漏洞注入点,能有效地提高漏洞检测率。  相似文献   

8.
传统基于DOM的信息抽取方法采用路径作为抽取规则,由于规则过于单一,因此效果并不十分理想。本文从相似页面的获取出发,逐步介绍了基于DOM采用特征比较法进行信息抽取的过程,最后还给出了针对多记录网页抽取时的试探策略、实验证明,该方法可以有效地抽取出网页中的数据。  相似文献   

9.
提出了Web页面聚类算法PageCluster及相应的改进算法ImPageCluster。该方法在兼顾Web站点结构和页面链接的同时,基于各个页面的重要程度对各个超链接进行赋权。与传统聚类算法相比,该算法不需要事先给定相似度阈值。实验结果证实了该算法的可行性和高效性。  相似文献   

10.
设计实现了一种从Web日志挖掘用户频繁访问路径的模型.提出网页聚类分析的一个重要基础理论,以及页面价值和跳转偏爱度的概念,并建立页面价值模型.该模型从页面价值-用户矩阵计算出页面价值间的加权欧氏距离,并由距离大小获得等价值页面集.再根据跳转偏爱度把等价值页面集转化为2-项频繁访问子路径集,并经过自适应的合并算法得到最终的频繁访问路径集.实验证明该页面价值模型能高效获得更精准的频繁访问路径.  相似文献   

11.
针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。  相似文献   

12.
基于内容相似度的网页正文提取   总被引:6,自引:0,他引:6       下载免费PDF全文
提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

13.
为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法。该算法根据DOM树和网页内容的特征用HTMLParser把网页转换成一棵内容块树。因网页子内容块具有相当明显的数值特征,可以通过BP神经网络建立网页噪音信息过滤模型。这样使得网页净化更加模型化,也能够取得更加好的效果。  相似文献   

14.
网页标题的正确抽取,在Web文本信息抽取领域有着重大意义。本文提出一种网页标题实时抽取方法。首先通过对目录型网页进行实时解析,接着采用基于超链接遍历的方法,并利用标题与发布时间的对应关系,最终获取对应目录型网页的URL及锚文本。若获得锚文本不是网页正文的标题,则获取主题型网页的HTML源码并构建网页DOM树。在此基础上,结合网页标题的视觉特点,深度优先遍历DOM树,正确提取网页正文标题。实验结果表明,本文提出的Web网页标题实时抽取方法,具有实现简单,准确率高等优点。   相似文献   

15.
一种动态网页保护系统的设计与实现   总被引:5,自引:0,他引:5  
随着动态网页技术的应用越来越广泛,有必要对动态网页的保护技术进行研究。本文在讨论了动态网页保护系统和非法用户的概念之后,首次在国内设计开发了一种可行的动态网页保护系统。该系统已获“计算机软件著作权登记”。文中对系统的体系结构、网页脚本保护、数据库保护以及系统的自保护做了详细讨论。文章最后指出了该系统在提高智能性方面需要进一步改进之处。  相似文献   

16.
树和模板的文献信息提取方法研究*   总被引:1,自引:0,他引:1  
教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取。实验结果表明该方法在提取网络数据库中文献信息的准确率在94%以上。  相似文献   

17.
陈钊  张冬梅 《计算机应用研究》2010,27(12):4401-4405
快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一定的相似性,基于DOM树结构和基于模板的抽取技术发展很快而且已经得到了广泛的应用。分别论述了上述几类技术在近几年来的研究进展,从自动化程度、适用范围和复杂性三个角度分析对比了几类技术的优缺点。  相似文献   

18.
基于状态转换的测试方法是探测Web程序动态行为的有效途径。针对Web应用中复杂的动态页面,通过改进现有Web测试方法,提出了一种新的基于事件的测试模型,用Web关系图(WARD)描述Web系统的结构,用基于事件的状态迁移图(SMD)描述复杂动态页面的内部结构,两者结合对Web应用系统全面建模。在实际Web系统中的实验证明该方法的建模是全面准确的。  相似文献   

19.
Web页面相似性是Web页面聚类和Web会话聚类的基础,其准确性直接影响聚类的质量。本文在分析基于URL结构的静态Web页面相似性度量的基础上,提出了将URL结构和页面访问时间结合起来度量Web页面对之间的相似性并给出了度量标准。实验证明,采用我们提出的度量标准得到的结果准确性更高,更接近于用户浏览兴趣。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号