共查询到17条相似文献,搜索用时 62 毫秒
1.
随着Deep Web数量和规模的快速增长,通过对其发起查询请求以得到存储在后台数据库中的相关信息,日渐成为用户获取信息的主要方式。为了方便用户有效地利用Deep Web中的信息,越来越多的研究者致力于这一领域的研究,重点之一是Deep Web后台数据库的数据集成。由于Deep Web后台数据库存储的主要是文本信息,使得从文本处理角度出发,针对Deep Web中存储的内容进行查询与检索的研究具有十分广阔的应用前景。本文对Deep Web的研究现状进行了较为详细的分析,同时对研究的发展方向进行了展望。 相似文献
2.
Deep Web数据集成研究综述 总被引:24,自引:1,他引:24
随着World Wide Web(WWW)的飞速发展,Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长.这些信息要通过查询接口在线访问其后端的Web数据库.尽管丰富的信息蕴藏在Deep Web中,由于Deep Web数据的异构性和动态性,有效地把这些信息加以利用是一件十分挑战性的工作.Deep Web数据集成至今仍然是一个新兴的研究领域,其中包含有若干需要解决的问题.总体来看,在该领域已经开展了大量的研究工作,但各个方面发展并不均衡.文中提出了一个Deep Web数据集成的系统架构,依据这个系统架构对Deep Web数据集成领域中若干关键研究问题的现状进行了回顾总结,并对未来的研究发展方向作了较为深入的探讨分析. 相似文献
3.
随着World Wide Web的飞速发展,出现了越来越多的可以在线访问的数据库,我们把这些数据库称作Web数据库.据统计,目前Web数据库的数量已经超过了45万个,在此基础上构成了Deep Web.Deep Web蕴含了大量有用的信息,其价值远远超过了仅由网页构成的Surface Web.但由于对Web数据库的访问只能通过其提供的 相似文献
4.
Deep Web查询接口是Web数据库的接口,其对于Deep Web数据库集成至关重要。本文根据网页表单的结构特征定义查询接口;针对非提交查询法,给出界定Deep Web查询接口的一些规则;提出提交查询法,根据链接属性的特点进行判断,找到包含查询接口的页面;采用决策树C4.5算法进行分类,并用Java语言实现Deep Web查询接口系统。 相似文献
5.
随着互联网技术的迅速发展,大量结构化的高质量信息被埋入网络,却无法被传统的搜索引擎检索到,进而难以被挖掘利用。针对这一现象,提出了基于Deep Web的信息采集系统,设计了基于Web的查询方式,并结合数据挖掘的相关技术,获取并挖掘深网信息资源,解决传统手工采集信息的弊端,提高系统的使用效率,避免人工搜集时间和费用上的开销,降低成本,便于维护。并且正在云南省大型仪器协作共用网络平台的建设中尝试实现这个子系统的设计。 相似文献
6.
7.
8.
Deep Web爬虫爬行策略研究 总被引:6,自引:0,他引:6
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某Deep Web站点的页面用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明Deep Web站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的Deep Web爬虫,它可以自动发现和下载Deep Web页面。由于Deep Web惟一“入口点”是查询接口,Deep Web爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际Deep Web站点上的实验证明了此方法是非常有效的。 相似文献
9.
基于Deep Web的信息采集系统 总被引:1,自引:0,他引:1
随着互联网技术的迅速发展,大量结构化的高质量信息被埋入网络,却无法被传统的搜索引擎检索到,进而难以被挖掘利用。针对这一现象,提出了基于Deep Web的信息采集系统,设计了基于Web的查询方式,并结合数据挖掘的相关技术,获取并挖掘深网信息资源,解决传统手工采集信息的弊端,提高系统的使用效率,避免人工搜集时间和费用上的开销,降低成本,便于维护。并且正在云南省大型仪器协作共用网络平台的建设中尝试实现这个子系统的设计。 相似文献
10.
Deep Web查询接口的判定技术研究 总被引:1,自引:0,他引:1
李齐会 《计算机与数字工程》2009,37(3):131-134
互联网的飞速发展,给人类带来了海量的可供访问信息,但是,现今搜索引擎索引的绝大部分是表层Surface Web网的信息,限于一些技术原因,搜索引擎几乎无法索引到Deep Web网中的信息。由于查询接口是Deep Web的唯一入口,但并非所有的网页表单都是查询接口,为了能充分利用Deep Web后台数据库信息,首先要找到进入Deep Web后台数据库的入口,所以对查询接口的正确判定至关重要。文中介绍了利用决策树CA.5分类算法自动判定网页表单是否为Deep Web查询接口的方法。 相似文献
11.
12.
13.
基于本体的Deep Web查询接口分类 总被引:1,自引:0,他引:1
目前对于分类问题,主要工作集中在文本或Web文档的分类研究,而很少有对deep Web查询接口的分类研究.deep Web源包括查询接口和查询结果,大量的deep Web源的存在,对它们查询接口的分类是通向deep Web分类集成和检索的关键步骤.本分提出一种deep Web本体分类方法,包括:分类本体的概念模型和由此产生的deep Web空间向量模型(VSM).试验表明,这种分类方法具有良好的分类效果,平均准确率达到91.6%,平均查全率达到92.4%. 相似文献
14.
15.
一种Deep Web爬虫的设计与实现 总被引:1,自引:0,他引:1
随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息.这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的.传统的Web爬虫仅能通过跟踪超链接检索普通的Surface Web页面,由于没有直接指向Deep Web页面的静态链接,所以当前大多数搜索引擎不能发现和索引这些页面.然而,与Surface Web相比,Deep Web中所包含的信息的质量更高,对我们更有价值.本文提出了一种利用HtmlUnit框架设计Deep Web爬虫的方法.它能够集成多个领域站点,通过分析查询表单从后台数据库中检索相关信息.实验结果表明此方法是有效的. 相似文献
16.
聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep web)数据的关键一步.介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep web数据集成的质量和效率. 相似文献
17.
Deep Web数据集成中查询处理的研究与进展 总被引:2,自引:0,他引:2
随着Web上在线数据库的大量涌现,Deep Web数据集成成为当前信息领域的一个研究热点,而查询处理是其中的一个重要的组成部分。由于Web数据库具有规模大、自治性、异构性以及动态性等特点,使得Deep Web数据集成中的查询处理比传统的分布环境下的查询处理更具挑战性。围绕Deep Web数据集成中查询处理的三个关键研究点:模式匹配、Web数据库的选择以及查询转换,综述了近年来国际上相关的、具代表性的研究成果,分析了这些方法的优缺点,总结并展望了未来的发展方向。 相似文献