期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杨永红高磊余航徐欣辰《计算机工程与应用》2017,53(7):109-114

获取Deep Web中信息的主要途径是通过在其提供的查询接口上提交查询来实现的,目前大部分的研究以表单内的标签获得表单内容结构,判断是不是一个Deep Web查询接口。提出了接口块的概念,设计了一种基于页面信息和视觉信息的接口块定位方法,最后将判定接口块是不是Deep Web接口看作是一个模式识别的分类问题,通过抽取适当的表单结构特征,采用C4.5决策树和SVM相结合的分类算法来进行接口块的判定,得到页面中含有的Deep Web查询接口。采用UIUC的TEL-8数据集进行实验,结果表明,该方法的准确率达到了97.30%,具有良好的可行性和实用性。相似文献

2.

基于标签编码的Deep Web查询接口识别方法

王妍宋宝燕张佳旸张洪梅李晓光《计算机应用》2011,31(5):1351-1354

通过对现有查询接口的识别方法进行的深入研究,针对计算、维护复杂以及匹配歧义性等问题,提出一种基于标签编码的Deep Web查询接口识别方法。该方法根据查询接口排列的方向性和不规则性进行标签编码并分组,然后以每一个标签组作为一个独立单位进行特征信息识别,提出了简单属性、复合属性的识别方法以及孤立文本的处理方法。通过对标签下标的约束确定与元素匹配的文本,大大减少了文本与元素匹配中需要考虑的文本数量,避免了由大量启发式算法引发的匹配歧义性问题;通过两次聚类有效解决了接口层次嵌套问题。相似文献

3.

深层网查询表单标签识别技术研究

陈丽君《电脑开发与应用》2010,23(2):66-68,77

随着Internet的飞速发展和动态网页技术的持续应用,深层网中含有越来越多宝贵的资源,如何让系统自动提取这些资源,供人们检索分享,成为近年来的研究热点。提出了逆向搜索匹配算法(RSM),用于识别深层网查询表单控件的标签。算法将查询表单看作有序的文本和控件序列,结合控件类型以及与文本的间隔关系进行标签识别。通过4组数据的实验,验证了所提出方法的有效性。相似文献

4.

深层网中基于入口查询的表单填充策略

下载免费PDF全文

马建华李赛红徐兰兰《计算机工程》2010,36(7):66-67,7

针对深层网中数据量大导致无法被传统搜索引擎索引的问题,在提取网页中,改进启发式规则识别表单查询入口,在表单标签与内容匹配时,改进基于语义的相似度匹配算法进行表单内容填充。实验结果表明,提取表单标签的准确率达到94.23%,匹配成功率达到88.83%,填充成功率达到95.43%。相似文献

5.

深层网中基于入口查询的袁单填充策略

下载免费PDF全文

马建华李赛红徐兰兰《计算机工程》2010,36(7):66-67,70

针对深层网中数据量大导致无法被传统搜索引擎索引的问题,在提取网页中,改进启发式规则识别表单查询入口,在表单标签与内容匹配时,改进基于语义的相似度匹配算法进行表单内容填充。实验结果表明,提取表单标签的准确率达到9423％,匹配成功率达到88．83％,填充成功率达到95．43％。相似文献

6.

基于《知网》的中文Deep Web模式匹配算法研究 总被引：1，自引：1，他引：0

金玉范学峰《计算机应用研究》2009,26(10):3750-3753

随着数据库在Internet中的应用日益广泛,Deep Web集成（即Web数据库集成）成为当前信息领域的研究热点,模式匹配是Deep Web查询接口集成中的一个关键问题。目前大多数这方面的研究都是基于英文的,针对这种情况,探讨了中文Deep Web查询接口的模式匹配方法,并提出了一种基于《知网》、面向中文语义的模式匹配算法,并利用属性在查询接口上的相对位置信息解决语义冲突。手工收集查询表单对算法进行验证,实验表明该方法能使得接口之间属性匹配的正确率达到90 %以上。相似文献

7.

基于本体实例信息的深度网表单属性自动抽取

梁浩左万利任斐赫枫龄《小型微型计算机系统》2009,30(5)

Deep Web是隐藏在Surface Web之后的信息提供者,而且在Deep Web之中还隐藏着更大量的信息.目前,对Deep Web中的信息进行有效的获取的可行方法是通过Deep Web提供的查询接口对其进行访问.自动抽取查询接口中的属性并生成正确的查询条件是提升访问Deep Web能力的有效方法.查询接口中属性之间存在着不同的语义约束关系,如互斥和共存.为了生成有效的查询条件,必须发现并协调关键属性间的语义关系.为了解决些问题,提出一个基于本体技术并充分利用实例信息的表单属性自动抽取方法,在这一方法中使用WordNet来丰富抽取出的关键属性并发现表单中属性间的语义关系.在属性抽取过程中,每个属性被拓展生成一个备选属性集并且以树型数据结构存储,而且备选属性树可以有效的描述属性间的语义关系.在现实领域中的试验证明,这一框架结构可以自动的抽取Deep Web表单属性并有效的生成查询条件. 相似文献

8.

大型网络中近似子图匹配研究 总被引：1，自引：0，他引：1

下载免费PDF全文

黄云洪佳明覃遵跃《计算机工程》2012,38(18):50-52

为降低噪声对近似子图匹配准确率的影响,提出一种改进的近似子图匹配方法。在预处理阶段,利用k-近邻顶点集为数据图中的每个顶点建立标签-权重向量索引。在查询过程中,基于单个近邻标签的权重距离和所有近邻标签的整体匹配程度进行两级过滤,生成顶点候选集,采用生成树匹配和图匹配的方式确定查询图在大型网络中的位置。在真实数据集上的实验结果表明,该方法具有较高的执行效率和匹配准确率。相似文献

9.

基于数据富集区域的Web内容自动抽取

许志坚孙蕾《计算机工程》2013,(9)

对电子商务网站的Web页面进行商品信息自动抽取,可以为进一步的增值服务,如比价、查询等提供有价值的信息。为此,提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪,采用基于树匹配的子树相似度计算方法挖掘目标页面的数据富集区域,从而抽取商品的数据记录。在5个电子商务网站上的实验结果表明,该方法的准确率均高于MDR方法,且召回率较高。相似文献

10.

基于决策树和链接相似的Deep Web查询接口判定*

李雪玲施化吉兰均李星毅《计算机应用研究》2011,28(11):4086-4088

针对现有Deep Web查询接口判定方法误判较多、无法有效区分搜索引擎类接口的不足,提出了基于决策树和链接相似的Deep Web查询接口判定方法。该方法利用信息增益率选取重要属性,并构建决策树对接口表单进行预判定,识别特征较为明显的接口;然后利用基于链接相似的判定方法对未识别出的接口进行二次判定,准确识别真正查询接口,排除搜索引擎类接口。结果表明,该方法能有效区分搜索引擎类接口,提高了分类的准确率和查全率。相似文献

11.

一种基于证据理论和任务分配的DeepWeb查询接口匹配方法

董永权李庆忠丁艳辉张永新《模式识别与人工智能》2011,24(2):262-271

针对已有查询接口匹配方法匹配器权重设置困难、匹配决策缺乏有效处理的局限性,提出一种基于证据理论和任务分配的DeepWeb查询接口匹配方法。该方法通过引入改进的D-S证据理论自动融合多个匹配器结果,避免手工设定匹配器权重,有效减少人工干预。通过对任务分配问题进行扩展,将查询接口的一对一匹配决策问题转化为扩展的任务分配问题,为源查询接口中的每一个属性选择合适的匹配,并在此基础上,采用树结构启发式规则进行一对多匹配决策。实验结果表明ETTA-IM方法具有较高的查准率和查全率。相似文献

12.

基于语义学习的图像多模态检索 总被引：1，自引：0，他引：1

李志欣施智平陈宏朝吴璟莉《计算机工程》2013,39(3):258-263

针对语义鸿沟问题,在语义学习的基础上设计图像的多模态检索系统。该系统结合3种查询方式进行图像检索。基于视觉特征的查询通过特征提取与相似度匹配进行排位。基于标签的查询建立在图像自动标注的基础上,但在语义空间之外的泛化能力较差。基于语义图例的查询能够在很大程度上克服这个缺陷,通过在显式或隐式的语义空间上进行查询,使检索结果更符合人类感知。实验结果表明,与基于纹理特征的图像检索相比,基于语义图例的检索具有更高的精度及召回率。相似文献

13.

层次序列索引的大规模动态标签图子图查询

任成林姜丽雁单晓欢宋宝燕《计算机工程与应用》2019,55(1):70-75

标签图常用于智能交通网、生物信息网等新兴领域的建模。子图查询作为图数据分析的关键问题，引起了研究者的广泛关注。对现有子图查询算法的研究发现，随着图数据规模增大且频繁更新，传统子图查询算法普遍存在查询效率低，存储开销大，忽略顶点标签信息等问题。为此，提出了一种支持大规模动态标签图子图查询的层次序列索引（Dynamic Hierarchical Sequence，DHS），该索引提取数据图中带有顶点编号的层次拓扑序列关系以实现子图查询；针对图的动态变化，提出了更新点拓扑扩展式索引维护策略，仅从局部变化顶点及边开始进行增量式更新，大大降低了重建索引造成的巨大开销；提出了基于DHS索引的子图查询方法，仅需将查询图与数据图的层次序列进行匹配即可获得候选集，并在其上利用关系匹配策略获得最终查询结果。实验证明提出的方法在保证高效查询的同时降低了索引的创建及维护时间，提高了子图查询效率。相似文献

14.

频繁项集在Deep Web数据源聚类中的应用

张蓬飞朱群雄《计算机工程与应用》2012,48(14):152-157

在Deep Web页面的背后隐藏着海量的可以通过结构化的查询接口进行访问的数据源。将这些数据源按所属领域进行组织划分,是DeepWeb数据集成中的一个关键步骤。已有的划分方法主要是基于查询接口模式和提交查询返回结果,存在查询接口特征难以完全抽取和提交数据库查询效率不高等问题。提出了一种结合网页文本信息,基于频繁项集的聚类方法,根据数据源查询接口所在页面的标题、关键词和提示文本,将数据源按照领域进行聚类,有效解决了传统方法中依赖查询接口特征以及文本模型的高维性问题。实验结果表明该方法是可行的,具有较高的效率。相似文献

15.

Multi-label active learning by model guided distribution matching

Nengneng GAO Sheng-Jun HUANG Songcan CHEN 《Frontiers of Computer Science》2016,10(5):845-855

Multi-label learning is an effective framework for learning with objects that have multiple semantic labels, and has been successfully applied into many real-world tasks. In contrast with traditional single-label learning, the cost of labeling a multi-label example is rather high, thus it becomes an important task to train an effectivemulti-label learning model with as few labeled examples as possible. Active learning, which actively selects the most valuable data to query their labels, is the most important approach to reduce labeling cost. In this paper, we propose a novel approach MADM for batch mode multi-label active learning. On one hand, MADM exploits representativeness and diversity in both the feature and label space by matching the distribution between labeled and unlabeled data. On the other hand, it tends to query predicted positive instances, which are expected to be more informative than negative ones. Experiments on benchmark datasets demonstrate that the proposed approach can reduce the labeling cost significantly. 相似文献

16.

面向旅游领域的Deep Web接口查询研究

白鹤赵志强王劲林《微计算机信息》2010,(13)

Deep Web蕴涵丰富的分类信息,是融合型在线旅游业务良好的数据源。本文对Deep Web接口模式进行分析,提出了接口集成方案的流程和领域实例库的建模方法,并就酒店查询业务进行了对方案的评估。测试结果显示,在对接口页面一定积累的基础上,可以达到较高的模式匹配准确率,从而保证了Deep Web接口的正确的自动查询。相似文献

17.

3D-List: a data structure for efficient video query processing 总被引：1，自引：0，他引：1

Chih-Chih Liu Chen A.L.P. 《Knowledge and Data Engineering, IEEE Transactions on》2002,14(1):106-122

A video query model based on the content of video and iconic indexing is proposed. We extend the notion of two-dimensional strings to three-dimensional strings (3D-Strings) for representing the spatial and temporal relationships among the symbols in both a video and a video query. The problem of video query processing is then transformed into a problem of three-dimensional pattern matching. To efficiently match the 3D-Strings, a data structure, called 3D-List, and its related algorithms are proposed. In this approach, the symbols of a video in the video database are retrieved from the video index and organized as a 3D-List according to the 3D-String of the video query. The related algorithms are then applied on the 3D-List to determine whether this video is an answer to the video query. Based on this approach, we have started a project called Vega. In this project, we have implemented a user friendly interface for specifying video queries, a video index tool for constructing the video index, and a video query processor based on the notion of 3D-List. Some experiments are also performed to show the efficiency and effectiveness of the proposed algorithms 相似文献

18.

深层网查询接口的自动集成

王铎李文辉公正江琦《计算机研究与发展》2009,46(Z2)

深层网数据库的访问方式主要是通过查询接口,所以查询接口是外部访问深层网数据库的门户.为了能够同时访问同一领域多个Web数据库,需要对多个Web数据库的查询接口进行集成.因此,提出基于本体的深层网查询接口集成方法.首先构建领域核心本体,在模式匹配过程中,不断完善核心本体;然后,以本体作为媒介,在不同查询接口模式间建立属性映射关系,发现属性间的语义关联;最后,根据本体概念出现的频数生成集成接口.实验表明提出的深层网查询接口自动集成方法是可行的和高效的. 相似文献