首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
针对深层网中数据量大导致无法被传统搜索引擎索引的问题,在提取网页中,改进启发式规则识别表单查询入口,在表单标签与内容匹配时,改进基于语义的相似度匹配算法进行表单内容填充。实验结果表明,提取表单标签的准确率达到94.23%,匹配成功率达到88.83%,填充成功率达到95.43%。  相似文献   

2.
针对深层网中数据量大导致无法被传统搜索引擎索引的问题,在提取网页中,改进启发式规则识别表单查询入口,在表单标签与内容匹配时,改进基于语义的相似度匹配算法进行表单内容填充。实验结果表明,提取表单标签的准确率达到9423%,匹配成功率达到88.83%,填充成功率达到95.43%。  相似文献   

3.
吴春明  谢德体 《计算机科学》2011,38(10):199-201
深网入口自动识别是深网数据集成的前提和基础。由于表单在设计上具有较大的随意性,使得深网入口缺 乏统一的构建标准,难以利用确定性的规则对其进行判断。首先基于统计特征,抽取了部分表单属性作为深网入口与 非深网入口的可区分特征,在此基础上,提出了一种利用神经网络进行深网入口自动识别的方法。不同于基于规则的 判断方法,神经网络是被训练的,不需要任何先验知识,这种特性使其非常适合于对具有复杂表现形式的深网入口进 行判定。实验结果表明了该方法的有效性。  相似文献   

4.
深网入口自动识别是深网数据集成的前提和基础.由于表单在设计上具有较大的随意性,使得深网入口缺乏统一的构建标准,难以利用确定性的规则对其进行判断.首先基于统计特征,抽取了部分表单属性作为深网入口与非深网入口的可区分特征,在此基础上,提出了一种利用神经网络进行深网入口自动识别的方法.不同于基于规则的判断方法,神经网络是被训练的,不需要任何先验知识,这种特性使其非常适合于对具有复杂表现形式的深网入口进行判定.实验结果表明了该方法的有效性.  相似文献   

5.
Deep Web数据源的发现和其领域相关性越来越引起人们的关注和兴趣。针对在判别查询接口时,提取精度低和忽略领域相关性的问题,提出一种采用多分类器对Deep Web数据源进行自动分类和判别的方法,其思想是:对爬虫获取到的页面使用朴素贝叶斯分类器对其进行领域相关性分类,然后使用改进的决策树分类器来对特定领域的数据源进行判定。实验结果表明此方法相比于使用单一决策树分类器有更好的性能,其召回率和精度都有所提高。  相似文献   

6.
甘露  臧洌  李航 《计算机科学》2017,44(4):229-233
软件缺陷预测技术在检测软件缺陷、保证软件质量方面发挥了重要的作用。利用神经网络分类算法构建的软件缺陷预测模型得到了广泛的应用。但是利用神经网络分类算法训练历史数据只能进行“浅层学习”,无法对数据特征进行深度挖掘。针对该问题,利用多层限制玻尔兹曼机叠加成深度信念网,先进行特征集成与迭代,并对这些特征数据进行深度学习,构建了基于深度信念网的软件缺陷预测模型(DBNSDPM)。仿真实验表明,本模型预测的准确性与传统的神经网络缺陷预测模型预测的准确性相比有显著提高。  相似文献   

7.
随着Internet的飞速发展和动态网页技术的持续应用,深层网中含有越来越多宝贵的资源,如何让系统自动提取这些资源,供人们检索分享,成为近年来的研究热点。提出了逆向搜索匹配算法(RSM),用于识别深层网查询表单控件的标签。算法将查询表单看作有序的文本和控件序列,结合控件类型以及与文本的间隔关系进行标签识别。通过4组数据的实验,验证了所提出方法的有效性。  相似文献   

8.
深度网搜索的核心部分就是深度网数据库接口的抽取和集成,虽然在理论上提出了很多种方案,并且在特定实验中也有着较好的效果,但是至今仍未将这些方法有效地整合到实际情况中去。首先提出了通过双配置文件的方式来简化深度网的实现,其次提出了一种基于编码方式的接口集成和映射的新方法,最后通过实验证明该框架和编码方法具有良好的实用效果。  相似文献   

9.
尚敬文  王朝坤  辛欣  应翔 《软件学报》2017,28(3):648-662
社区结构是复杂网络的一个重要特征,社区发现对研究网络结构有重要的应用价值.k-均值等经典聚类算法是解决社区发现问题的一类基本方法.然而,在处理网络的高维矩阵时,使用这些经典聚类方法得到的社区往往不够准确.提出一种基于深度稀疏自动编码器的社区发现算法CoDDA,尝试提高使用这些经典方法处理高维邻接矩阵进行社区发现的准确性.首先,提出基于跳数的处理方法,对稀疏的邻接矩阵进行优化处理.得到的相似度矩阵不仅能反映网络拓扑结构中相连节点间的相似关系,同时能反映不相连节点间的相似关系.接着,基于无监督深度学习方法,构建深度稀疏自动编码器,对相似度矩阵进行特征提取,得到低维的特征矩阵.与邻接矩阵相比,特征矩阵对网络拓扑结构有更强的特征表达能力.最后,使用k-均值算法对低维特征矩阵聚类得到社区结构.实验结果显示,与6种典型的社区发现算法相比,CoDDA算法能够发现更准确的社区结构.同时,参数实验结果显示,CoDDA算法发现的社区结构比直接使用高维邻接矩阵的基本k-均值算法发现的社区结构更为准确.  相似文献   

10.
利用应用程序或远程线程函数被加载后,其进程堆栈中存有位于Kernel32.DLL中的返回地址,利用这个返回地址,可在远程进程中获取Kernel32.DLL的基地址,从而可以得到关键的2个API函数GetProcAddress和LoadLibrary的入口地址。利用这二个函数就可以在远程进程中动态装入DLL,动态搜索并取得所需要的API函数入口地址。  相似文献   

11.
基于网页上下文的Deep Web数据库分类   总被引:6,自引:0,他引:6  
马军  宋玲  韩晓晖  闫泼 《软件学报》2008,19(2):267-274
讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属性标记词的归一过程是把同义标记词用代表词进行替代的过程.给出了采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化算法.基于上述预处理,给出了计算Deep Web数据库的K-NN(k nearest neighbors)分类算法,其中对数据库之间语义距离计算综合了数据库表之间和含有数据库表的网页的内容文本之间的语义距离.分类实验给出算法对未预处理的网页和经过预处理后的网页在数据库分类精度、查全率和综合F1等测度上的分类结果比较.  相似文献   

12.
杨萍  李杰 《微机发展》2007,17(1):242-244
对一个软件系统而言,系统的性能包括执行效率、资源占用、稳定性等等,其中负载压力是性能的一个重要方面。负载压力测试有助于确认被测系统是否能够支持性能需求,以及预期的负载增长,并找出系统出现异常的原因,从而对系统性能进行调优。随着Web应用程序的使用越来越广泛,对它的性能进行测试也变得越来越重要,而采用自动化的测试工具极大地方便了Web的测试。文中利用MI的自动化测试工具LoadRunner,初步实现了Web负载测试的自动化。  相似文献   

13.
14.
本文概述Web技术和数据库技术融合的必要性,在介绍一种流行的Web脚本语言PHP的基础上,提出PHP实现Web与数据库互连的解决方案,并通过实例介绍如何运用这一技术在Web上实现对数据库的查询和修改。  相似文献   

15.
一种基于树结构的Web数据自动抽取方法   总被引:10,自引:2,他引:8  
介绍了一种基于树结构的自动从HTML页面中抽取数据的方法.在HTML页面的树形结构之上,提出了基于语义块的HTML页面结构模型:HTML页面中的数据值主要存在于语义块中,不同的HTML页面的主要区别在于语义块的区别.基于语义块的结构模型,自动抽取通过4个步骤完成:通过HTML页面比较发现语义块;区分语义块中数据值的角色;推导数据模式和推导抽取规则.在实际HTML页面上的实验已经证明,这种方法能够达到较高的正确率,同时,随着文档的增大,方法也能够保证线性的时间复杂度.  相似文献   

16.
网上考试系统应用了先进的面向对象开发方法、基于B/S(浏览器/服务器)结构和面向对象接口技术编程。客户端可以通过浏览器访问系统,实现任务的下达、提交考核成绩的统计、人员权限的分配等功能。针对系统的功能和性能需求,采用了ASP.NET技术。通过ASP.NET结合HTML网页、ASP.NET指令和ActiveX元件,建立动态、交互并且高效的Web服务器应用程序。  相似文献   

17.
李小霞 《计算机科学》2006,33(3):145-146
在粗集论中,决策表简化问题可转化为极小子集问题.本文给出极小子集问题的逻辑代数解法,即通过求逻辑函数的极小析取范式或极小合取范式来获得极小子集.  相似文献   

18.
基于隐马尔可夫模型的在线零售站点的自适应   总被引:5,自引:1,他引:5  
开展在线零售业务存在的问题是,群体用户必须浏览许多无关的页面,才能最终找到自己所需要的商品.解决该问题的一个思路是:建立一个隐马尔可夫模型,通过关联规则发现算法发现关联购买集合;然后通过Viterbi算法求出从首页到一个关联购买集合中心的具有最大被购买概率的一些路径;在这些路径上标注关联购买集合;当处理完所有的关联购买集合之后,通过竞争来决定出现在导航页面上的物品集,最终将导航页合理地变成导航购买页.即站点可以自动根据群体用户的访问购买情况进行自适应.此外,该方法也是一种很好的通过建立隐马尔可夫模型来分析  相似文献   

19.
Using Correspondence Analysis to Combine Classifiers   总被引:7,自引:0,他引:7  
Several effective methods have been developed recently for improving predictive performance by generating and combining multiple learned models. The general approach is to create a set of learned models either by applying an algorithm repeatedly to different versions of the training data, or by applying different learning algorithms to the same data. The predictions of the models are then combined according to a voting scheme. This paper focuses on the task of combining the predictions of a set of learned models. The method described uses the strategies of stacking and Correspondence Analysis to model the relationship between the learning examples and their classification by a collection of learned models. A nearest neighbor method is then applied within the resulting representation to classify previously unseen examples. The new algorithm does not perform worse than, and frequently performs significantly better than other combining techniques on a suite of data sets.  相似文献   

20.
Interuet上有大量的页面是由后台数据库动态产生的,传统的搜索引擎搜索不出这部分页面,我们称之为深网,其中大部分深网信息是结构化的。将这些结构化的深网数据库按所属领域进行分类是获得深网信息的一个关键问题。本文针对已有深网数据库分类方法实现成本高昂、效率低下的问题,提出了一种基于Web日志粒度化的深网数据库分类算法,并通过实验检验了方法的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号