首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
Deep Web是隐藏在Surface Web之后的信息提供者,而且在Deep Web之中还隐藏着更大量的信息.目前,对Deep Web中的信息进行有效的获取的可行方法是通过Deep Web提供的查询接口对其进行访问.自动抽取查询接口中的属性并生成正确的查询条件是提升访问Deep Web能力的有效方法.查询接口中属性之间存在着不同的语义约束关系,如互斥和共存.为了生成有效的查询条件,必须发现并协调关键属性间的语义关系.为了解决些问题,提出一个基于本体技术并充分利用实例信息的表单属性自动抽取方法,在这一方法中使用WordNet来丰富抽取出的关键属性并发现表单中属性间的语义关系.在属性抽取过程中,每个属性被拓展生成一个备选属性集并且以树型数据结构存储,而且备选属性树可以有效的描述属性间的语义关系.在现实领域中的试验证明,这一框架结构可以自动的抽取Deep Web表单属性并有效的生成查询条件.  相似文献   

2.
金玉  范学峰 《计算机应用研究》2009,26(10):3750-3753
随着数据库在Internet中的应用日益广泛,Deep Web集成(即Web数据库集成)成为当前信息领域的研究热点,模式匹配是Deep Web查询接口集成中的一个关键问题。目前大多数这方面的研究都是基于英文的,针对这种情况,探讨了中文Deep Web查询接口的模式匹配方法,并提出了一种基于《知网》、面向中文语义的模式匹配算法,并利用属性在查询接口上的相对位置信息解决语义冲突。手工收集查询表单对算法进行验证,实验表明该方法能使得接口之间属性匹配的正确率达到90 %以上。  相似文献   

3.
为通过一个统一的接口访问所有分布的Web数据源,获得质量优结构好的信息,设计实现了包括Deep Web查询接口模式抽取、应用整体模式匹配算法的Deep Web查询接口模式匹配以及包含包括属性选择,表单元素生成和元素值域生成工作的查询接口集成3部分在内的基于整体模式匹配Deep Web集成系统.将该系统在Deep Web图书搜索系统中实际应用,运行结果表明,该系统设计是可行和有效的.  相似文献   

4.
电子商务网站以查询接口的方式提供商务信息,查询接口也是隐藏在后端的Deep Web数据库模式信息的载体.有效解析查询接口是访问Deep Web资源的第1步,但是由于查询接口在不同的设计模式和开发语言下实现,所以导致了属性难以抽取、语义关系复杂的现象.为提高属性抽取的准确率且实现在语义层面上对查询接口的解读,提出一种以查询接口启发式信息为基础的属性抽取方法,通过使用本体工具对属性集合进行拓展并获取语义描述.在实际的电子商务网站上进行的广泛实验证明了提出方法的可行性与有效性.  相似文献   

5.
Deep Web中的海量信息只能通过查询接口访问获得,为了能够同时访问同一领域多个Web数据库,需要对多个Web数据库的查询接口进行集成.因此,引入本体技术,提出基于本体的Deep Web查询接口集成方法.Deep Web查询接口集成主要完成两个方面的工作:模式匹配与模式融合.模式匹配采用本体的“Bridge(桥接)”效应建立不同接口模式间的属性映射关系,以准确发现不同接口属性间的语义关联.模式融合根据模式匹配的结果,合并Deep Web数据库查询接口集合中表示同一语义的属性,并尽可能地保持该领域查询接口的结构特征和属性顺序,以获得集成查询接口.通过实验分析,基于本体的Deep Web查询接口集成方法不仅简化了模式匹配的复杂过程,而且很大程度上提高了模式集成的精度.因此,基于本体的Deep Web查询接口集成方法是高效可行的.  相似文献   

6.
Deep Web中蕴含着丰富的高质量的信息,通过Deep Web集成查询接口可以获取到包含这些信息的结果页面,因此,Deep Web查询结果页面的数据抽取成为Deep Web数据集成的关键。提出了将索引方法和编辑相似度相结合的方法,来完成Deep Web查询结果页面的数据抽取工作。大量实验结果表明:该方法是可行的,并且能够提高Deep Web数据实体抽取的准确性和召回率。  相似文献   

7.
Deep Web查询接口是Web数据库的接口,其对于Deep Web数据库集成至关重要。本文根据网页表单的结构特征定义查询接口;针对非提交查询法,给出界定Deep Web查询接口的一些规则;提出提交查询法,根据链接属性的特点进行判断,找到包含查询接口的页面;采用决策树C4.5算法进行分类,并用Java语言实现Deep Web查询接口系统。  相似文献   

8.
基于语义的中文Deep Web查询接口集成   总被引:1,自引:0,他引:1  
现在网上信息正越来越被在线数据库深化,而传统的搜索引擎对此类信息源却没有很好的获取办法,加剧了人们想得到有用知识而搜索结果并不理想的形势.本文针对这种情况,简要论述了中文Deep Web研究工作的必要性及其发展前景,探讨了中文DeeP Web技术的关键问题,并基于中文语叉,提出了中文Deep Web中的查询接口集成方案.实验表明该方法能使得接口之间属性匹配的正确率达到98%以上.  相似文献   

9.
关于中国Deep Web的规模、分布和结构   总被引:7,自引:0,他引:7  
随着Web数据库的广泛应用,Web正在加速的"深化",大量的高质量的信息隐藏在Deep Web中.基于IP采样的方法,对1,000,000个IP样本进行了分析统计,揭示了2006年初中国Deep Web的规模、分布和结构.主要结论包括有:1中国Deep Web查询接口往往位于站点浅层,94.6%的Deep Web查询接口出现在站点的前3层;2中国Deep Web大约有24,000个站点,28,000个Web数据库和74,000个查询接口;3中国Deep Web大部分是非结构化的,其中64%是非结构化的Web数据库;4中国Deep Web分布于多种不同的主题领域;5目前主要的中文搜索引擎已覆盖国内Deep Web大约二分之一的页面.  相似文献   

10.
随着Internet信息的迅速增长,许多Web信息已经被各种各样的可搜索在线数据库所深化,并被隐藏在Web查询接口下面.传统的搜索引擎由于技术原因不能索引这些信息--Deep Web信息.由于Deep Web惟一"入口点"是查询接口.为使查询接口自动产生有意义有查询,给出了Deep Web信息集成系统框架,提出了基于数据类型的搜索驱动的用户查询转换方法,基于此设计并实现了一个针对中文Deep Web信息集成原型系统.通过在实际Deep web站点上的实验证明了此方法是非常有效的.  相似文献   

11.
以网上书店为例,基于所发现的DeepWeb数据源,针对其查询接口,提出了一种基于领域知识的DeepWeb接口抽取方法,该方法采用正则表达式的规则提取查询接口,包括与控件相邻的文本语义词汇的提取和控件的提取,然而部分查询接口抽取出的文本语义信息比较繁琐,需借助页面中的字体颜色等特征,过滤非需要的信息,达到文中的目标。该方法获得了较好的结果,具有良好的可行性和实用性。  相似文献   

12.
本体映射是基于本体的语义查询与集成的基础.本体映射发现的任务是从源本体和目标本体的相似度中发现本体映射,它是本体映射的关键.将本体映射发现问题看成是集合覆盖问题,提出一种基于集合覆盖的本体映射发现方法SME(SCM-hased Mapping Extraction),该方法在训练阶段找到最大程度覆盖训练数据的属性集,在测试阶段利用这些属性集在测试数据上对应属性值的交操作来发现映射.实验证明该方法具有较好的综合性能.  相似文献   

13.
标签抽取和匹配是查询接口理解的重要组成部分。提出了一种基于视觉的标签抽取和匹配方法,深入分析了相关匹配因子,给出了一种对查询接口表单进行重构的方法,它能依据接口HTMI_源代码自动还原出该表单的视觉布局特征。在最终的匹配算法中,综合考虑了基于label标记的匹配、基于文本语义的匹配以及基于位置特征的匹配。在8个领域共计277个查询接口上的实验证明了所提方法能取得较高的匹配精度。  相似文献   

14.
数据库汉语查询系统中隐含知识查询的研究   总被引:2,自引:0,他引:2  
该文讨论了目前现有数据库汉语查询系统中的存在问题,根据关系数据库中数据表示与自然语言(汉语)查询句的语义模型不同,提出了数据库汉语查询时隐含知识的查询,对数据库中的隐含知识以概念图来表示,从而建立了自然语言和数据库查询命令SQL语言的直接联系。实现了这种数据库隐含知识查询的实验系统,从一定程度上提高了数据库汉语查询的智能性。  相似文献   

15.
关系数据库上泛关系查询与中文查询语言的接口   总被引:1,自引:1,他引:0  
本文初步探讨了实现关系数据库上泛关系查询与自然语言查询接口的一种方法, 文章对其中的若干问题如词典的组织、翻译算法等作了比较详细的讨论并通过实例进行了具体的说明。  相似文献   

16.
在Deep Web数据集成系统中进行查询松弛时,面对众多异构数据源的属性,如何来判断松弛的先后顺序目前没有很好的方法.根据表单特征来判定属性的重要程度,提出一种针对Deep Web环境的属性松弛顺序判定方法.同时在结果的排序过程中考虑影响松弛结果与查询条件相似性的主要因素,提出了一种更为高效的排序方法.实验结果表明了该方法的有效性.  相似文献   

17.
无论多么复杂的查询语句都是由查询目标和查询条件组成的,查询条件决定着查询语句的结构,查询条件之间可以是并列的,也可以是嵌套的,查询条件的顺序也不是固定的。本文采取信息抽取的原理来抽取查询条件语义信息,提出了抽取查询条件语义信息的算法,这些算法可形成中文查询语句的各种类型的查询条件。实验表明,这些算法可以
以有效地抽取查询条件语义信息。  相似文献   

18.
在自然语言处理的研究中,最有希望的应用领域之一是自然语言接口。计算机对自然语言中的查询语言理解的正确程度是自然语言接口质量好坏的关键。通过对汉语查询句——即用于数据库自然语言查询的祈使句和特指问句、是非问句、正反问句、选择问句等共五类句型的研究,建立并研究了复合概念、逻辑概念与标准概念的内在联系,将查询目标概念分解为直接查询目标、逻辑推理目标和比较判断目标三个阶段,研究了这三个阶段的关系。  相似文献   

19.
中文数据库自然语言查询系统Nchiql设计与实现   总被引:15,自引:0,他引:15  
中文数据库自然语言查询的研究有两个基本目标,首先解决NLIDB面临的可移植性和可用性的问题,其次提出适合中文自然语言查询处理的特有方法,为此开了了中文数据库自然语言查询系统NChiql,从总体设计的角度,介绍了NChiql中的可移植性体系结构、中文自然语言查询分析、基于数据库语言的自然语言查询分析与转换和智能界面管理等内容,实验表明,该系统具有良好的可用性及高效和鲁棒的语言分析器。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号