首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
Deep Web中蕴含了海量可供访问的信息,如何构建一个具有较好适用性和高效数据处理能力的Deep Web数据集成系统是有效利用Deep Web信息的关键.提出一种基于结果模式的Deep Web数据集成机制,通过结果模式可以实现高效的数据抽取,并且在结果模式的基础上可以根据用户查询请求动态生成结果输出模式,为高效的查询结果处理奠定了良好基础;同时,针对Deep Web数据源特点,给出数据源间冲突的分类及解决策略,为解决数据源间的异构问题奠定了良好基础.  相似文献   

2.
Deep Web中的海量信息只能通过查询接口访问获得,为了能够同时访问同一领域多个Web数据库,需要对多个Web数据库的查询接口进行集成.因此,引入本体技术,提出基于本体的Deep Web查询接口集成方法.Deep Web查询接口集成主要完成两个方面的工作:模式匹配与模式融合.模式匹配采用本体的“Bridge(桥接)”效应建立不同接口模式间的属性映射关系,以准确发现不同接口属性间的语义关联.模式融合根据模式匹配的结果,合并Deep Web数据库查询接口集合中表示同一语义的属性,并尽可能地保持该领域查询接口的结构特征和属性顺序,以获得集成查询接口.通过实验分析,基于本体的Deep Web查询接口集成方法不仅简化了模式匹配的复杂过程,而且很大程度上提高了模式集成的精度.因此,基于本体的Deep Web查询接口集成方法是高效可行的.  相似文献   

3.
李明  李秀兰 《计算机应用》2011,31(7):1733-1736
全面准确地标注Deep Web查询结果是Deep Web数据集成的关键问题,但现有的Web数据库标注方法还不能较好地解决该问题,为此提出一种基于结果模式的Deep Web数据标注方法。首先通过结果页面解析和抽取结构化数据来完成数据预处理的工作,并在集成结果模式和待标注数据之间建立正确的语义映射,进而确定Deep Web数据的标注信息。通过对4个领域Web数据库进行实验测试,结果表明所提方法能有效地标注Deep Web查询结果数据。  相似文献   

4.
高明  黄哲学 《集成技术》2012,1(3):47-54
随着Deep Web数量和规模的快速增长,通过对其发起查询请求以得到存储在后台数据库中的相关信息,日渐成为用户获取信息的主要方式。为了方便用户有效地利用Deep Web中的信息,越来越多的研究者致力于这一领域的研究,重点之一是Deep Web后台数据库的数据集成。由于Deep Web后台数据库存储的主要是文本信息,使得从文本处理角度出发,针对Deep Web中存储的内容进行查询与检索的研究具有十分广阔的应用前景。本文对Deep Web的研究现状进行了较为详细的分析,同时对研究的发展方向进行了展望。  相似文献   

5.
根据Deep Web数据集成原理,提出了基于Deep Web数据集成技术的信息查询系统设计方案,并通过在图书和课件检索领域的实验证明了系统的可行性和有效性。  相似文献   

6.
为通过一个统一的接口访问所有分布的Web数据源,获得质量优结构好的信息,设计实现了包括Deep Web查询接口模式抽取、应用整体模式匹配算法的Deep Web查询接口模式匹配以及包含包括属性选择,表单元素生成和元素值域生成工作的查询接口集成3部分在内的基于整体模式匹配Deep Web集成系统.将该系统在Deep Web图书搜索系统中实际应用,运行结果表明,该系统设计是可行和有效的.  相似文献   

7.
对Deep Web中的海量信息进行集成是Web信息检索领域的一个新兴研究热点.本文提出了一个基于移动Agent的Deep Web数据集成框架,设计了数据集成中间件DWDIM(Deep Web Data Integration Middleware),采用Java语言和Aglet平台对集成系统进行实现.并将控制学中的负反馈技术引入到系统设计当中,提高了集成系统的性能.  相似文献   

8.
Deep Web信息大约是Surface Web信息的400到500倍,这些信息对传统搜索引擎不可见。Deep Web爬虫的研究,是搜索引擎获得Deep Web信息的重要步骤,仍处于研究的早期阶段。目前对于爬虫的研究,主要成果集中在Surface Web,而很少有对Deep Web爬虫的研究。分析Deep Web的访问模式,并在此基础上提出一种安全验证模式下Deep Web爬虫的算法。试验表明:该算法可以有效实现特定安全验证模式下的Deep Web信息的抓取。  相似文献   

9.
Deep Web数据源聚焦爬虫   总被引:2,自引:0,他引:2       下载免费PDF全文
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对Deep Web数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。  相似文献   

10.
一种Deep Web爬虫的设计与实现   总被引:1,自引:0,他引:1  
随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息.这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的.传统的Web爬虫仅能通过跟踪超链接检索普通的Surface Web页面,由于没有直接指向Deep Web页面的静态链接,所以当前大多数搜索引擎不能发现和索引这些页面.然而,与Surface Web相比,Deep Web中所包含的信息的质量更高,对我们更有价值.本文提出了一种利用HtmlUnit框架设计Deep Web爬虫的方法.它能够集成多个领域站点,通过分析查询表单从后台数据库中检索相关信息.实验结果表明此方法是有效的.  相似文献   

11.
Deep Web数据集成中查询处理的研究与进展   总被引:2,自引:0,他引:2  
随着Web上在线数据库的大量涌现,Deep Web数据集成成为当前信息领域的一个研究热点,而查询处理是其中的一个重要的组成部分。由于Web数据库具有规模大、自治性、异构性以及动态性等特点,使得Deep Web数据集成中的查询处理比传统的分布环境下的查询处理更具挑战性。围绕Deep Web数据集成中查询处理的三个关键研究点:模式匹配、Web数据库的选择以及查询转换,综述了近年来国际上相关的、具代表性的研究成果,分析了这些方法的优缺点,总结并展望了未来的发展方向。  相似文献   

12.
针对Deep Web查询界面集成问题,定义了一种面向专门领域的域序列模式图(FSRG)模型,用于表示和发现同一领域查询界面中的所有域序列模式.该模型将领域内不同查询页面的域序列模式统一到一个有向有环图中.基于序列模式图进行研究可发现领域模式中域的结构化组织排列规律.还论述了域序列模式图的构造、域子序列模式划分和领域所有域的整体序列模式发现方法.在有限领域下封闭测试表明,该模型及其算法对结构化Web界面分析有较大应用价值.研究为实现智能化的Web数据模式处理提供了域序列分析方法,对大规模智能集成和搜索应用有一定参考价值.  相似文献   

13.
Deep Web中蕴含着丰富的高质量的信息,通过Deep Web集成查询接口可以获取到包含这些信息的结果页面,因此,Deep Web查询结果页面的数据抽取成为Deep Web数据集成的关键。提出了将索引方法和编辑相似度相结合的方法,来完成Deep Web查询结果页面的数据抽取工作。大量实验结果表明:该方法是可行的,并且能够提高Deep Web数据实体抽取的准确性和召回率。  相似文献   

14.
深度万维网(Deep Web)已成为万维网上十分重要的资源,是数据库领域的研究热点.目前已有的多数研究主要集中在深度万维网发现、查询接口集成以及查询结果处理等技术层面.然而对于这个超出表面万维网所涵盖信息数百倍的宝贵资源,人们目前还缺乏足够的了解和认识.对于一些基本问题,例如:(1)中文深度万维网的具体规模有多大;(2...  相似文献   

15.
王兵  ;刘彩虹 《微机发展》2008,(7):176-180
随着Internet信息的迅速增长,许多Web信息已经被各种各样的可搜索在线数据库所深化,并被隐藏在Web查询接口下面。传统的搜索引擎由于技术原因不能索引这些信息——DeepWeb信息。由于DeepWeb惟一“入口点”是查询接口,为使查询接口自动产生有意义有查询,给出了DeepWeb信息集成系统框架,提出了基于数据类型的搜索驱动的用户查询转换方法,基于此设计并实现了一个针对中文DeepWeb信息集成原型系统。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。  相似文献   

16.
金玉  范学峰 《计算机应用研究》2009,26(10):3750-3753
随着数据库在Internet中的应用日益广泛,Deep Web集成(即Web数据库集成)成为当前信息领域的研究热点,模式匹配是Deep Web查询接口集成中的一个关键问题。目前大多数这方面的研究都是基于英文的,针对这种情况,探讨了中文Deep Web查询接口的模式匹配方法,并提出了一种基于《知网》、面向中文语义的模式匹配算法,并利用属性在查询接口上的相对位置信息解决语义冲突。手工收集查询表单对算法进行验证,实验表明该方法能使得接口之间属性匹配的正确率达到90 %以上。  相似文献   

17.
在Deep Web页面的背后隐藏着海量的可以通过结构化的查询接口进行访问的数据源。将这些数据源按所属领域进行组织划分,是DeepWeb数据集成中的一个关键步骤。已有的划分方法主要是基于查询接口模式和提交查询返回结果,存在查询接口特征难以完全抽取和提交数据库查询效率不高等问题。提出了一种结合网页文本信息,基于频繁项集的聚类方法,根据数据源查询接口所在页面的标题、关键词和提示文本,将数据源按照领域进行聚类,有效解决了传统方法中依赖查询接口特征以及文本模型的高维性问题。实验结果表明该方法是可行的,具有较高的效率。  相似文献   

18.
Deep Web查询接口是Web数据库的接口,其对于Deep Web数据库集成至关重要。本文根据网页表单的结构特征定义查询接口;针对非提交查询法,给出界定Deep Web查询接口的一些规则;提出提交查询法,根据链接属性的特点进行判断,找到包含查询接口的页面;采用决策树C4.5算法进行分类,并用Java语言实现Deep Web查询接口系统。  相似文献   

19.
刘徽  黄宽娜  余建桥 《计算机工程》2012,38(11):284-286
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页 面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。  相似文献   

20.
基于关键词相关度的Deep Web爬虫爬行策略   总被引:1,自引:0,他引:1       下载免费PDF全文
田野  丁岳伟 《计算机工程》2008,34(15):220-222
Deep Web蕴藏丰富的、高质量的信息资源,为了获取某Deep Web站点的页面,用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,目前大多数搜索引擎不能发现这些页面。该文提出的Deep Web爬虫爬行策略,可以有效地下载Deep Web页面。由于该页面只提供一个查询接口,因此Deep Web爬虫设计面对的主要挑战是怎样选择最佳的查询关键词产生有意义的查询。实验证明文中提出的一种基于不同关键词相关度权重的选择方法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号