共查询到19条相似文献,搜索用时 62 毫秒
1.
Deep Web查询接口是Web数据库的接口,其对于Deep Web数据库集成至关重要。本文根据网页表单的结构特征定义查询接口;针对非提交查询法,给出界定Deep Web查询接口的一些规则;提出提交查询法,根据链接属性的特点进行判断,找到包含查询接口的页面;采用决策树C4.5算法进行分类,并用Java语言实现Deep Web查询接口系统。 相似文献
2.
3.
Deep Web爬虫爬行策略研究 总被引:6,自引:0,他引:6
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某Deep Web站点的页面用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明Deep Web站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的Deep Web爬虫,它可以自动发现和下载Deep Web页面。由于Deep Web惟一“入口点”是查询接口,Deep Web爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际Deep Web站点上的实验证明了此方法是非常有效的。 相似文献
4.
Deep Web数据集成研究综述 总被引:24,自引:1,他引:24
随着World Wide Web(WWW)的飞速发展,Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长.这些信息要通过查询接口在线访问其后端的Web数据库.尽管丰富的信息蕴藏在Deep Web中,由于Deep Web数据的异构性和动态性,有效地把这些信息加以利用是一件十分挑战性的工作.Deep Web数据集成至今仍然是一个新兴的研究领域,其中包含有若干需要解决的问题.总体来看,在该领域已经开展了大量的研究工作,但各个方面发展并不均衡.文中提出了一个Deep Web数据集成的系统架构,依据这个系统架构对Deep Web数据集成领域中若干关键研究问题的现状进行了回顾总结,并对未来的研究发展方向作了较为深入的探讨分析. 相似文献
5.
Deep Web的查询中,关键词的选择是一个关键问题。文中针对查询Deep Web中的文本数据库,对查询词的选择作出一些研究。将Zipf Estimator应用于根据查询词的频率选择词条的方法中,提出了用部分文档中的查询词的排序来得出整个文档集中查询词的排序的方法。将Zipf Estimator运用于查询词的选择,减少查询词选择时的运算量,以较少的查询次数得到较多的查询结果。测试结果证明了Zipf Estimator运用于查询词的选择可有效提高查询Deep Web中的文本数据库的效率。 相似文献
6.
Deep Web查询接口的判定技术研究 总被引:1,自引:0,他引:1
李齐会 《计算机与数字工程》2009,37(3):131-134
互联网的飞速发展,给人类带来了海量的可供访问信息,但是,现今搜索引擎索引的绝大部分是表层Surface Web网的信息,限于一些技术原因,搜索引擎几乎无法索引到Deep Web网中的信息。由于查询接口是Deep Web的唯一入口,但并非所有的网页表单都是查询接口,为了能充分利用Deep Web后台数据库信息,首先要找到进入Deep Web后台数据库的入口,所以对查询接口的正确判定至关重要。文中介绍了利用决策树CA.5分类算法自动判定网页表单是否为Deep Web查询接口的方法。 相似文献
7.
随着Deep Web数量和规模的快速增长,通过对其发起查询请求以得到存储在后台数据库中的相关信息,日渐成为用户获取信息的主要方式。为了方便用户有效地利用Deep Web中的信息,越来越多的研究者致力于这一领域的研究,重点之一是Deep Web后台数据库的数据集成。由于Deep Web后台数据库存储的主要是文本信息,使得从文本处理角度出发,针对Deep Web中存储的内容进行查询与检索的研究具有十分广阔的应用前景。本文对Deep Web的研究现状进行了较为详细的分析,同时对研究的发展方向进行了展望。 相似文献
8.
9.
10.
通过对现有查询接口的识别方法进行的深入研究,针对计算、维护复杂以及匹配歧义性等问题,提出一种基于标签编码的Deep Web查询接口识别方法。该方法根据查询接口排列的方向性和不规则性进行标签编码并分组,然后以每一个标签组作为一个独立单位进行特征信息识别,提出了简单属性、复合属性的识别方法以及孤立文本的处理方法。通过对标签下标的约束确定与元素匹配的文本,大大减少了文本与元素匹配中需要考虑的文本数量,避免了由大量启发式算法引发的匹配歧义性问题;通过两次聚类有效解决了接口层次嵌套问题。 相似文献
11.
12.
13.
针对量子粒子群算法存在的不足,将变异算子引入其中,提出一种高斯变异量子粒子群算法(GM-QPSO),并将其应用于数据库查询优化中。首先建立数据库查询优化数学模型,然后采用量子粒子代表一个可行的数据库查询方案,然后通过量子粒子之间的信息交流,找到数据库查询最优解,最后在 Matlab 2012上进行了仿真实验。仿真结果表明, GM-QPSO克服了量子粒子群算法存在的不足,不仅提高了数据库查询速度,而且获得了更加理想的查询优化方案。 相似文献
14.
随着Internet信息的迅速增长,许多Web信息已经被各种各样的可搜索在线数据库所深化,并被隐藏在Web查询接口下面。传统的搜索引擎由于技术原因不能索引这些信息——DeepWeb信息。由于DeepWeb惟一“入口点”是查询接口,为使查询接口自动产生有意义有查询,给出了DeepWeb信息集成系统框架,提出了基于数据类型的搜索驱动的用户查询转换方法,基于此设计并实现了一个针对中文DeepWeb信息集成原型系统。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。 相似文献
15.
陈可华 《数字社区&智能家居》2009,(8)
对于分布式异构数据库,查询优化既是非常复杂的问题,又是影响系统性能的关键因素。该文结合遗传算法和量子计算的优点,提出了基于量子遗传算法的分布式异构数据库查询优化方法。仿真实验表明,该方法有效地提高了分布式异构数据库的查询优化效率。 相似文献
16.
随着网格计算技术的快速发展,其应用领域在不断扩大,然而,跨网络分布式数据的联合查询往往成为性能的瓶颈,因此文中从提高分布式数据的联合查询的效率出发,以网格计算这一新型web体系结构为技术平台,研究基于网格服务的查询优化目标、查询优化对象和查询优化策略。文中采用了应用非常广泛的启发式搜索算法来缩小策略空间这一优化策略,并在该策略的基础上提出了一种基于网格服务的2-way半连接查询优化算法,最后在网格计算环境下对该算法与一般的全连接算法做了实验对比,证明基于网格服务的2-way半连接查询优化算法可大大缩短查询响应时间。 相似文献
17.
A Query Interface Matching Approach Based on Extended Evidence Theory for Deep Web 总被引:1,自引:0,他引:1 下载免费PDF全文
Matching query interfaces is a crucial step in data integration across multiple Web databases. Different types of information about query interface schemas have been used to match attributes between schemas. Relying on a single aspect of information is not suffcient and the matching results of individual matchers are often inaccurate and uncertain. The evidence theory is the state-of-the-art approach for combining multiple sources of uncertain information. However, traditional evidence theory has the limita... 相似文献
18.
Query Processing and Optimization on the Web 总被引:2,自引:0,他引:2
The advent of the Internet and the Web and their subsequent ubiquity have brought forth opportunities to connect information sources across all types of boundaries (local, regional, organizational, etc.). Examples of such information sources include databases, XML documents, and other unstructured sources. Uniformly querying those information sources has been extensively investigated. A major challenge relates to query optimization. Indeed, querying multiple information sources scattered on the Web raises several barriers for achieving efficiency. This is due to the characteristics of Web information sources that include volatility, heterogeneity, and autonomy. Those characteristics impede a straightforward application of classical query optimization techniques. They add new dimensions to the optimization problem such as the choice of objective function, selection of relevant information sources, limited query capabilities, and unpredictable events. In this paper, we survey the current research on fundamental problems to efficiently process queries over Web data integration systems. We also outline a classification for optimization techniques and a framework for evaluating them. 相似文献
19.
电子商务网站以查询接口的方式提供商务信息,查询接口也是隐藏在后端的Deep Web数据库模式信息的载体.有效解析查询接口是访问Deep Web资源的第1步,但是由于查询接口在不同的设计模式和开发语言下实现,所以导致了属性难以抽取、语义关系复杂的现象.为提高属性抽取的准确率且实现在语义层面上对查询接口的解读,提出一种以查询接口启发式信息为基础的属性抽取方法,通过使用本体工具对属性集合进行拓展并获取语义描述.在实际的电子商务网站上进行的广泛实验证明了提出方法的可行性与有效性. 相似文献