首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 125 毫秒
1.
基于实例的Deep Web数据源结果模式匹配技术   总被引:1,自引:0,他引:1       下载免费PDF全文
针对Deep Web数据源结果模式信息的匹配问题,提出了一种基于实例的结果模式匹配的方法。该方法能够匹配并验证数据源的结果模式属性信息,同时记录数据在结果页面中的结构信息。利用基于查询请求松弛的两段模式匹配方法精确地匹配模式属性,并基于模式属性间共现度信息来提高属性匹配的查全率和查准率。从实验结果分析可以看出,基于实例的方法能够有效地识别数据源模式信息,提高模式属性查全率和查准率。  相似文献   

2.
李明  李秀兰 《计算机应用》2011,31(7):1733-1736
全面准确地标注Deep Web查询结果是Deep Web数据集成的关键问题,但现有的Web数据库标注方法还不能较好地解决该问题,为此提出一种基于结果模式的Deep Web数据标注方法。首先通过结果页面解析和抽取结构化数据来完成数据预处理的工作,并在集成结果模式和待标注数据之间建立正确的语义映射,进而确定Deep Web数据的标注信息。通过对4个领域Web数据库进行实验测试,结果表明所提方法能有效地标注Deep Web查询结果数据。  相似文献   

3.
获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法.通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理,解决不同数据...  相似文献   

4.
基于结果模式的Deep Web数据抽取   总被引:3,自引:0,他引:3  
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础.  相似文献   

5.
为通过一个统一的接口访问所有分布的Web数据源,获得质量优结构好的信息,设计实现了包括Deep Web查询接口模式抽取、应用整体模式匹配算法的Deep Web查询接口模式匹配以及包含包括属性选择,表单元素生成和元素值域生成工作的查询接口集成3部分在内的基于整体模式匹配Deep Web集成系统.将该系统在Deep Web图书搜索系统中实际应用,运行结果表明,该系统设计是可行和有效的.  相似文献   

6.
Deep Web中的海量信息只能通过查询接口访问获得,为了能够同时访问同一领域多个Web数据库,需要对多个Web数据库的查询接口进行集成.因此,引入本体技术,提出基于本体的Deep Web查询接口集成方法.Deep Web查询接口集成主要完成两个方面的工作:模式匹配与模式融合.模式匹配采用本体的"Bridge(桥接)"效应建立不同接口模式间的属性映射关系,以准确发现不同接口属性间的语义关联.模式融合根据模式匹配的结果,合并DeepWeb数据库查询接口集合中表示同一语义的属性,并尽可能地保持该领域查询接口的结构特征和属性顺序,以获得集成查询接口.通过实验分析,基于本体的DeepWeb查询接口集成方法不仅简化了模式匹配的复杂过程,而且很大程度上提高了模式集成的精度.因此,基于本体的Deep Web查询接口集成方法是高效可行的.  相似文献   

7.
在Deep Web数据集成系统中进行查询松弛时,面对众多异构数据源的属性,如何来判断松弛的先后顺序目前没有很好的方法.根据表单特征来判定属性的重要程度,提出一种针对Deep Web环境的属性松弛顺序判定方法.同时在结果的排序过程中考虑影响松弛结果与查询条件相似性的主要因素,提出了一种更为高效的排序方法.实验结果表明了该方法的有效性.  相似文献   

8.
基于搜索引擎的Deep Web数据源发现技术   总被引:1,自引:0,他引:1  
随着Web数据库的广泛应用,Web正在不断"深化".传统搜索引擎只能检索浅层网络,却不能直接索引到深层网络(Deep Web)的资源.为了有效地利用Deep Web资源,必须要对Deep Web数据进行大规模集成.其中,数据源发现是整合DeepWeb资源的首要工作,能否高效地发现DeepWeb站点是DeepWeb数据获取的关键.提出了一种基于传统搜索引擎的Deep Web数据源发现方法,该方法通过分析返回结果来扩展查询,从而进一步提高了数据源发现的效率.实验证明该方法能得到较好的结果.  相似文献   

9.
Deep Web集成中数据模式映射失效检测方法研究   总被引:1,自引:1,他引:0  
查询接口集成是Deep Web数据集成的关键,在动态环境下,Web数据源的变化会引起数据模式映射的失效,使得查询接口集成维护难度增加,因此数据模式映射失效检测是Deep Web数据集成研究中的热点问题.针对目前数据模式映射失效检测方法的局限,在模糊聚集算子的研究基础上,提出一种适用于数据模式映射失效检测的结果融合算法.通过实验对比测试,并对映射失效检测方法的性能和效率进行了分析和实验,结果证明了提出的方法对于失效模型的检测是有效的.  相似文献   

10.
随着Web数据库的广泛应用,Web正在不断“深化”。传统搜索引擎只能检索浅层网络,却不能直接索引到深层网络(Deep Web)的资源。为了有效地利用Deep Web资源,必须要对Deep Web数据进行大规模集成。其中,数据源发现是整合Deep Web资源的首要工作,能否高效地发现Deep Web站点是Deep Web数据获取的关键。提出了一种基于传统搜索引擎的Deep Web数据源发现方法,该方法通过分析返回结果来扩展查询,从而进一步提高了数据源发现的效率。实验证明该方法能得到较好的结果。  相似文献   

11.
Deep Web中蕴含着丰富的高质量的信息,通过Deep Web集成查询接口可以获取到包含这些信息的结果页面,因此,Deep Web查询结果页面的数据抽取成为Deep Web数据集成的关键。提出了将索引方法和编辑相似度相结合的方法,来完成Deep Web查询结果页面的数据抽取工作。大量实验结果表明:该方法是可行的,并且能够提高Deep Web数据实体抽取的准确性和召回率。  相似文献   

12.
针对Deep Web环境中存在的失败查询,提出了一种有效的查询松弛策略.所有Deep Web资源按查询接口属性分组,组成全局数据源关系图(DRG);针对特定查询将DRG转换为对应该查询请求的数据源关系图;利用该DRG,按照特定的规则进行查询松弛和执行处理.针对查询松弛导致的部分结果可能与用户查询请求的相似度较低的问题,提出先通过Skyline方法对结果进行筛选,然后再根据各个结果实例与用户查询的相似度进行Top-k排序,最后将最接近用户要求的结果集返回给用户.通过实验验证了提出的查询松弛策略的有效性.  相似文献   

13.
Deep Web数据集成研究综述   总被引:24,自引:1,他引:24  
刘伟  孟小峰  孟卫一 《计算机学报》2007,30(9):1475-1489
随着World Wide Web(WWW)的飞速发展,Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长.这些信息要通过查询接口在线访问其后端的Web数据库.尽管丰富的信息蕴藏在Deep Web中,由于Deep Web数据的异构性和动态性,有效地把这些信息加以利用是一件十分挑战性的工作.Deep Web数据集成至今仍然是一个新兴的研究领域,其中包含有若干需要解决的问题.总体来看,在该领域已经开展了大量的研究工作,但各个方面发展并不均衡.文中提出了一个Deep Web数据集成的系统架构,依据这个系统架构对Deep Web数据集成领域中若干关键研究问题的现状进行了回顾总结,并对未来的研究发展方向作了较为深入的探讨分析.  相似文献   

14.
针对已有证据理论(DS)方法在深层网接口集成方面的局限性,设计一种基于概念词与语义异构模型的深层网模式匹配方法。通过提取概念词对概念词模型进行预处理,识别并组合成组属性,使m︰n的复杂匹配转变为1︰1的简单匹配,提高系统执行速度。在语义异构模型中引入属性实例,将挖掘语义异构的同义属性问题,转化为对属性间各特征相似值的计算、综合评测和选取问题。实验结果表明,该方法在匹配效率和准确率上较DS方法有较大改进。  相似文献   

15.
随着越来越多的信息隐藏在Deep Web中,针对用户查询找出最相关的Web数据库成为亟待解决的问题。提出了一种基于Web数据库主题分布的方法用于Deep Web数据集成中的Web数据库选择。获取主题覆盖度形式的Web数据库内容描述,而后利用选定的Web数据库获取查询主题,最终由查询主题和主题分布矩阵来选择Web数据库。在真实Web数据库上的实验结果表明,该方法既取得了较高的查询召回率,也可有效降低数据库内容描述建立的代价。  相似文献   

16.
基于关键词相关度的Deep Web爬虫爬行策略   总被引:1,自引:0,他引:1       下载免费PDF全文
田野  丁岳伟 《计算机工程》2008,34(15):220-222
Deep Web蕴藏丰富的、高质量的信息资源,为了获取某Deep Web站点的页面,用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,目前大多数搜索引擎不能发现这些页面。该文提出的Deep Web爬虫爬行策略,可以有效地下载Deep Web页面。由于该页面只提供一个查询接口,因此Deep Web爬虫设计面对的主要挑战是怎样选择最佳的查询关键词产生有意义的查询。实验证明文中提出的一种基于不同关键词相关度权重的选择方法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号