首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 281 毫秒
1.
一种基于节点密度分割和标签传播的Web页面挖掘方法   总被引:1,自引:0,他引:1  
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性.  相似文献   

2.
针对Web应用测试用例生成过程中导航图规模过大以及存在冗余测试路径的问题,提出了一种基于Selenium页面对象设计模式和图遍历算法的Web应用测试用例生成方法。首先,通过将原始页面对象进行分类,以导航页面对象类为节点、导航方法为迁移边构建页面对象导航图;其次,结合图的最短路径算法提出了一种页面对象图算法(POGA)来遍历导航图以生成测试路径集;最后,提取测试路径,利用Faker生成模拟数据,进一步生成可以直接执行的测试用例。实验结果表明:与爬取Web应用生成导航图的规模相比,该方法约简率约为89%;与基于状态迁移生成Web应用测试用例的方法相比,该方法减小了冗余和不可行路径的数量,并进一步提高了页面对象的复用率和测试用例的可维护性。  相似文献   

3.
张璞 《计算机工程》2009,35(5):243-245
利用J2EE技术开发Web应用系统时经常需要编写大量代码来处理组织机构管理、权限管理、日志管理等基础业务,对于大量结构相似的业务处理页面仍需要手工编码,导致开发工作量增大,开发周期变长。针对这些问题,设计并实现了一个Web应用基础业务框架,该框架提供相关基础业务模块供开发Web应用系统使用,使用自动化生成工具来生成Web应用系统中的大量数据维护页面。工程实践表明,该框架能够较大程度地提高Web应用系统的开发效率,缩短开发周期,增强系统的可扩展性。  相似文献   

4.
随着业务需求的日渐庞大,构筑大规模web应用系统变得愈加复杂。各种Web应用框架的出现,为应用开发人员提供了相当多的便利。然而目前大多数的Web应用框架仅为Web应用定义了一个层次清晰、分工明确的编程模型,实现这个模型仍然需要手工编写大量代码,而且基于XML的页面流配置文件往往冗长而难以维护。针对这些问题,论文提出了一种页面流模型驱动的Web应用开发框架,它以页面流模型的设计为核心,根据需求分析定制应用的整体业务流程,并给出了支持该框架的Web应用开发工具PFlowWeb。最后介绍一个由PFlowWeb开发的基于Web的文件共享交换系统的应用案例。实践表明,运用该平台可以有效提高大中型Web应用系统的开发效率,增强系统的健壮性和可扩展性。  相似文献   

5.
以采用HTML为文件格式,JavaScript作为客户端脚本,JSP作为服务器端执行代码的Web应用系统为研究对象,在现有Web应用结构抽取方法所存在的缺陷分析基础下,通过静态分析Web应用系统的源代码,获得整个Web应用的目录结构和文档类型,再进一步抽取页面内主要结构元素,将所得到的信息以XML语言形式进行存储。通过构建和遍历XML语法树,抽取主要组件及组件间的关联信息,最终形成Web应用的系统结构图,从而提高Web应用系统维护和演化工作的效率,有效帮助维护人员对整个Web应用系统的理解。  相似文献   

6.
近年来,随着不同编程语言代码自动转换工具的出现,跨语言的代码抄袭检测问题受到了越来越多的关注.现有跨语言代码抄袭检测主要包括传统的基于中间特征的检测方法和近年来出现的基于机器学习的检测方法,后者在检测模型训练完成之后具有更好的检测速度,是当前跨语言代码抄袭检测的研究热点.然而,现有的基于机器学习的跨语言抄袭检测方法大多将代码作为文本来处理,未考虑代码的结构特征.结合代码基于抽象语法树的结构特征,本文提出了一个基于伪孪生神经网络框架的跨语言抄袭检测工具CLPDetector.该工具将训练数据中的源代码对转换成对应的抽象语法树,基于抽象语法树生成代码的向量表示,然后将结合BiLSTM、CNN和Attention的深度神经网络嵌入到伪孪生网络架构中训练抄袭检测模型,从而实现了跨语言代码抄袭的检测.为了提高检测精度,首先,在训练检测模型前,利用基于抽象语法树的skip-gram算法对词向量进行了预训练,并基于程序依赖图删除了训练数据集代码中的冗余代码.其次,在代码抄袭检测阶段,提出了一个基于属性计数的过滤器,用以排除不可能抄袭的代码对,提高检测效率.实验中基于一个开源的数据集,以Java代码和...  相似文献   

7.
在软件开发的过程中,开发人员通过复制粘贴式的开发方式或者模块化的开发方式来完成需求是十分常见的,这两种开发方式可以提高开发效率,但同时会导致软件系统中出现大量的相同代码或者相似代码,大量的相似代码会给软件维护等方面带来很大的困难,这也是最常见的重构对象。源代码相似性度量是指利用一定的检测方法分析程序源代码间的相似程度。该技术被应用于代码抄袭检测、代码克隆检测、软件知识产权保护、代码复用等多个领域。为了提高代码相似性度量的准确性,提出了一种基于多特征值的源代码相似性检测技术。构建了源代码注释、型构、代码文本语句与结构中特征提取的方法,并给出了源代码相似度检测的度量模型。通过与权威的代码相似检测系统Moss进行对比实验,结果表明该方法可以更准确地检测出相似代码。  相似文献   

8.
冗余代码普遍存在于商业和开源软件中,它的存在可能会增加内存占用,影响代码可维护性,增加维护成本。快速类型分析算法是当前Java冗余代码检测中常用的静态分析方法,该算法在虚方法分析方面还存在一些不足。XTA是一种调用图构造算法,在处理虚方法的调用方面具有较高的精度和效率。文中提出了一种基于XTA调用图构建算法的方法来检测Java代码中的冗余代码,在一个名为“RCD”(Redundant Code Detection)的工具原型中实现了这种方法,并通过构建知识图谱辅助人工审查,以提高人工审查的效率以及冗余代码检测的可信度。通过在4个开源Java应用程序上的实验对RCD与其他3个冗余代码检测工具进行了比较。实验结果表明,RCD在检测冗余代码的准确性方面相比其他工具提高了1%~30%,同时在检测冗余虚方法的完整性方面提升了4%左右。  相似文献   

9.
针对Web应用测试方法错误覆盖率低的问题,提出了一种基于状态迁移的Web应用功能测试用例生成方法。该方法通过构造页面状态迁移图、事件迁移表和导航迁移表对Web应用的链接关系进行表示。基于页面状态迁移图生成的页面状态迁移树生成测试路径,根据等价类划分原则,提出了一种测试用例覆盖准则,结合事件迁移表和导航迁移表中的信息记录构造测试用例。典型案例实验结果表明,该方法有效地表示了Web应用中页面间的链接关系,提高了测试用例的错误检测率。  相似文献   

10.
针对代码与模型之间的不一致性问题,提出了一种基于UML模型和Java代码之间的一致性检测方法.首先,对UML类图和时序图进行形式化描述,并提出时序调用图(SD-CG)这一概念,在此基础上完成类的关联关系到关联属性的转换以及UML时序图到时序调用图SD-CG的转换;其次,通过方法调用图CG来表达类方法之间的调用关系,从而反映代码动态行为,由此通过对Java源代码的词法分析与语法分析,可获得类的信息及方法调用图CG;然后设计了UML模型与Java源代码间一致性检测算法,包括对类间静态信息以及时序调用图SD-CG与方法调用图CG间的一致性检测;最后,通过开发UML模型与Java源代码一致性检测工具,验证了所提出的方法是可行有效的.  相似文献   

11.
There has been an ongoing trend toward collaborative software development using open and shared source code published in large software repositories on the Internet. While traditional source code analysis techniques perform well in single project contexts, new types of source code analysis techniques are ermerging, which focus on global source code analysis challenges. In this article, we discuss how the Semantic Web, can become an enabling technology to provide a standardized, formal, and semantic rich representations for modeling and analyzing large global source code corpora. Furthermore, inference services and other services provided by Semantic Web technologies can be used to support a variety of core source code analysis techniques, such as semantic code search, call graph construction, and clone detection. In this paper, we introduce SeCold, the first publicly available online linked data source code dataset for software engineering researchers and practitioners. Along with its dataset, SeCold also provides some Semantic Web enabled core services to support the analysis of Internet-scale source code repositories. We illustrated through several examples how this linked data combined with Semantic Web technologies can be harvested for different source code analysis tasks to support software trustworthiness. For the case studies, we combine both our linked-data set and Semantic Web enabled source code analysis services with knowledge extracted from StackOverflow, a crowdsourcing website. These case studies, we demonstrate that our approach is not only capable of crawling, processing, and scaling to traditional types of structured data (e.g., source code), but also supports emerging non-structured data sources, such as crowdsourced information (e.g., StackOverflow.com) to support a global source code analysis context.  相似文献   

12.
源代码漏洞的自动检测是一个重要的研究课题。目前现有的解决方案大多是基于线性模型,依赖于源代码的文本信息而忽略了语法结构信息,从而造成了源代码语法和语义信息的丢失,同时也遗漏了许多漏洞特征。提出了一种基于结构表征的智能化漏洞检测系统Astor,致力于使用源代码的结构信息进行智能化漏洞检测,所考虑的结构信息是抽象语法树(Abstract Syntax Tree,AST)。首先,构建了一个从源代码转化而来且包含源码语法结构信息的数据集,提出使用深度优先遍历的机制获取AST的语法表征。最后,使用神经网络模型学习AST的语法表征。为了评估Astor的性能,对多个基于结构化数据和基于线性数据的漏洞检测系统进行比较,实验结果表明Astor能有效提升漏洞检测能力,降低漏报率和误报率。此外,还进一步总结出结构化模型更适用于长度大,信息量丰富的数据。  相似文献   

13.
以PHP为主要开发技术,采用Smarty模板引擎构建了基于B/S的Web应用系统——招聘报名系统。该系统有着高效率、高性能、可扩展等优点,其B/S三层体系结构统一了客户端,集功能于服务器,简化了应用开发,Smarty模板引擎以其智能的分离逻辑,有效地实现了视图与源码的分离,缩短了开发周期,同时降低了维护成本。  相似文献   

14.
为了提高Web应用系统的质量和开发效率,研究并分析了其通用模块开发效率问题,提出了一个Web应用系统开发平台.平台融合了快速原型法和模块化设计思想并改进了Web应用系统开发文档的处理流程,提供文档管理、模块定制、动态编译、版本控制等功能.研究表明该平台将有效地缩短Web应用系统开发中的通用模块开发周期,具有Web应用系统开发生命周期管理、粗粒度控制、模块化开发和快速生成系统原型等优点.  相似文献   

15.
随着Internet技术的发展,Struts开源框架为Web应用系统提供全新的开发平台,利用该平台开发的应用系统执行效率高、扩展性强。系统以工作流为核心,采用Struts技术,利用Web应用的分层,完成了网上书店购物平台的构建,实现前台业务逻辑与后台管理,包括用户管理、新闻管理、书籍管理、订单管理、会员资料管理、流量统计分析、搜索等功能。系统的设计充分发挥了Struts框架的优势,实现多层开发的低耦合、设计和代码的重用,提高了软件可维护性、可扩展性和开发速度。系统的开发在一定程度上提高了书店的销售效率及有效管理,方便用户购买书籍。  相似文献   

16.
现有的安卓恶意应用检测方法所提取的特征冗余且抽象,无法在高级语义上反映恶意应用的行为模式。针对这一问题,提出一种可解释性检测方法,通过社交网络检测算法聚类可疑系统调用组合,将其映射为单通道图像,用卷积神经网络进行分类,并利用卷积层梯度权重类激活映射可视化方法发现最可疑的系统调用组合,从而挖掘理解恶意应用行为。实验结果表明,所提方法在高效检测的基础上,能够正确发现恶意应用的行为模式。  相似文献   

17.
针对基于支持向量机的Web文本分类效率低的问题,提出了一种基于支持向量机Web文本的快速增量分类FVI-SVM算法。算法保留增量训练集中违反KKT条件的Web文本特征向量,克服了Web文本训练集规模巨大,造成支持向量机训练效率低的缺点。算法通过计算支持向量的共享最近邻相似度,去除冗余支持向量,克服了在增量学习过程中不断加入相似文本特征向量而导致增量学习的训练时间消耗加大、分类效率下降的问题。实验结果表明,该方法在保证分类精度的前提下,有效提高了支持向量机的训练效率和分类效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号