首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
基于属性相关度的Web数据库大小估算方法   总被引:12,自引:0,他引:12  
凌妍妍  孟小峰  刘伟 《软件学报》2008,19(2):224-236
提出了一种基于词频统计的方法以估算Web数据库的规模.通过分析Web数据库查询接口中属性之间的相关度来获取某个属性上的一组随机样本;并对该属性分别提交由前k位高频词形成的试探查询以估算Web数据库中记录的总数.通过在几个真实的Web数据库上进行实验验证,说明该方法可以准确地估算出Web数据库的大小.  相似文献   

2.
网络在成为信息查询和发布平台的同时,海量的信息隐藏在查询受限的Web数据库中,使得人们无法有效地获取这些高质量的数据记录.传统的Deep Web搜索研究主要集中在通过关键字接口获取Web数据库内容.但是,由于Deep Web具有多属性和top-k的特点,基于关键字的方法具有固有的缺点,这就为Deep Web查询和检索带来了挑战.为了解决这个问题,提出了一种基于层次树的Deep Web数据获取方法,该方法可以无重复和完整地提取Web数据库中的数据记录.该方法首先把Web数据库模型化为一棵层次树,Deep Web数据获取问题就转化为树的遍历问题.其次,对树中的属性排序,缩小遍历空间;同时,利用基于属性值相关度的启发规则指导遍历过程提高遍历效率.最后,在本地模拟数据库和真实Web数据库上的大量实验证明,这种方法可以达到很好的覆盖度和较高的提取效率.  相似文献   

3.
关于中国Deep Web的规模、分布和结构   总被引:7,自引:0,他引:7  
随着Web数据库的广泛应用,Web正在加速的"深化",大量的高质量的信息隐藏在Deep Web中.基于IP采样的方法,对1,000,000个IP样本进行了分析统计,揭示了2006年初中国Deep Web的规模、分布和结构.主要结论包括有:1中国Deep Web查询接口往往位于站点浅层,94.6%的Deep Web查询接口出现在站点的前3层;2中国Deep Web大约有24,000个站点,28,000个Web数据库和74,000个查询接口;3中国Deep Web大部分是非结构化的,其中64%是非结构化的Web数据库;4中国Deep Web分布于多种不同的主题领域;5目前主要的中文搜索引擎已覆盖国内Deep Web大约二分之一的页面.  相似文献   

4.
随着越来越多的信息隐藏在Deep Web中,针对用户查询找出最相关的Web数据库成为亟待解决的问题。提出了一种基于Web数据库主题分布的方法用于Deep Web数据集成中的Web数据库选择。获取主题覆盖度形式的Web数据库内容描述,而后利用选定的Web数据库获取查询主题,最终由查询主题和主题分布矩阵来选择Web数据库。在真实Web数据库上的实验结果表明,该方法既取得了较高的查询召回率,也可有效降低数据库内容描述建立的代价。  相似文献   

5.
要实现Deep Web领域中的数据集成,提供一个高效的数据检索策略是集成系统要解决的首要问题.面对众多的Web数据库,选择最恰当的数据库进行查询,实现以更小的代价返回更多的数据是研究的核心问题.针对此问题,提出了基于Web数据库独立样本的Web数据库特征表示和抽取方法,并基于该特征,提出了一种综合考虑查询相关度、返回数据量和数据冗余度3个要素的数据源选择方法.实验证明,该方法能够达到预期的研究目标,能较好地满足集成系统的需求.  相似文献   

6.
近年来,随着Web上在线数据库的大量涌现,Deep Web数据集成(即Web数据库集成)成为当前信息领域的一个研究热点.查询转换是其中的核心部分,它主要负责将集成接口上的查询转换到相关Web数据库的接口上.由于Web数据库具有异构性和自治性的特点, 各查询接口上的属性名、数据格式以及查询能力都不尽相同,因此相当一部分查询不能进行精确转换,那么选择何种策略进行近似查询转换是一个很具有挑战性的工作.对这一问题进行了深入探讨,提出了基于最小超集的近似查询转换方法.实验结果表明,该方法在Deep Web数据集成中可以有效地提高返回结果的准确性.  相似文献   

7.
Deep Web中蕴含着大量高质量的数据,然而只有通过Web查询接口对Web数据库提交查询才能获取这些数据,因此,自动获取Web查询接口模式是实现Web数据库集成的关键.将Web查询接口模式的抽取过程看作一个词法分析的过程,通过构建EGLM-FA(元素分组及标签匹配有限状态自动机)来完成对Web查询接口模式的抽取.首先应用Html呈现引擎将Web查询接口所在页面进行解析,利用查询接口Form中的DOM节点及其坐标信息构建相应的NSS(节点空间结构),之后再将所有的NSS组成NSS列表,将NSS列表作为EGLM-FA的输入,进而抽取出Web查询接口的模式.  相似文献   

8.
Deep Web集成服务的不确定模式匹配   总被引:5,自引:0,他引:5  
随着Deep Web的迅猛发展,从高度自治、异构及动态变化的Web数据库中,为用户提供高质量的数据逐渐成为当前Deep Web集成服务的一个研究热点.在大部分Web数据库只能通过查询接口为用户提供服务的前提下,如何建立用户请求与集成查询接口模式之间以及集成查询接口模式与Web数据库查询接口模式之间的匹配关系,是Deep Web集成服务中进行合理的用户请求转换的关键.之前的相关工作都是寻找最佳的匹配结果,回避匹配的不确定性,丢弃了可能有价值的其他匹配结果.文中首先剖析了请求转换中模式匹配的不确定性,提出了数字类型的相似度计算方法,给出了进行数字类型的模式匹配的有效的剪枝方法以及数据类型驱动的模式匹配优化方法,并在此基础上提出了一种基于相似度计算的不确定性模式匹配方法,最后通过大量的实验证明了该方法的有效性.  相似文献   

9.
基于本体的Deep Web数据标注   总被引:3,自引:0,他引:3  
袁柳  李战怀  陈世亮 《软件学报》2008,19(2):237-245
借鉴语义Web领域中深度标注的思想,提出了一种对Web数据库查询结果进行语义标注的方法.为了获得完整且一致的标注结果,将领域本体作为Web数据库遵循的全局模式引入到查询结果语义标注过程中.对查询接口及查询结果特征进行详细分析,并采用查询条件重置的策略,从而确定查询结果数据的语义标记.通过对多个不同领域Web数据库的测试,在具有领域本体支持的条件下,该方法能够对Web数据库查询结果添加正确的语义标记,从而验证了该方法的有效性.  相似文献   

10.
姜芳艽 《计算机科学》2010,37(11):184-189
在Deep Web数据集成中,集成查询接口和很多W cb数据库查询接口用合取谓词表达查询,但是也有相当一部分Web数据库的查询接口用互斥谓词表达查询,这意味着查询转换时每次只能选择一个谓词。因此,准确、高效地佑计每个互斥查询的选择性是优化查询转换的关键。提出了基于Zipf分布与属性相关性的选择性佑计方法。通过属性之间的相关性从Web数据库上获取该属性近似随机的属性级样本,在此基础上计算属性值的Zipf分布方程,进而推断该无限值属性的任意值的选择性。实验表明,该方法可以准确、高效地估计各互斥查询的选择性。  相似文献   

11.
Deep Web数据集成研究综述   总被引:24,自引:1,他引:24  
刘伟  孟小峰  孟卫一 《计算机学报》2007,30(9):1475-1489
随着World Wide Web(WWW)的飞速发展,Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长.这些信息要通过查询接口在线访问其后端的Web数据库.尽管丰富的信息蕴藏在Deep Web中,由于Deep Web数据的异构性和动态性,有效地把这些信息加以利用是一件十分挑战性的工作.Deep Web数据集成至今仍然是一个新兴的研究领域,其中包含有若干需要解决的问题.总体来看,在该领域已经开展了大量的研究工作,但各个方面发展并不均衡.文中提出了一个Deep Web数据集成的系统架构,依据这个系统架构对Deep Web数据集成领域中若干关键研究问题的现状进行了回顾总结,并对未来的研究发展方向作了较为深入的探讨分析.  相似文献   

12.
Deep Web数据源聚类与分类   总被引:1,自引:0,他引:1  
随着Internet信息的迅速增长,许多Web信息已经被各种各样的可搜索在线数据库所深化,并被隐藏在Web查询接口下面.传统的搜索引擎由于技术原因不能索引这些信息--Deep Web信息.本文分析了Deep Web查询接口的各种类型,研究了基于查询接口特征的数据源聚类方法和基于聚类结果的数据源分类方法,讨论了从基于规则与线性文档分类器中抽取查询探测集的规则抽取算法和Web文档数据库分类的查询探测算法.  相似文献   

13.
本文概述Web技术和数据库技术融合的必要性,在介绍一种流行的Web脚本语言PHP的基础上,提出PHP实现Web与数据库互连的解决方案,并通过实例介绍如何运用这一技术在Web上实现对数据库的查询和修改。  相似文献   

14.
定向查询引擎在Web化学数据库集成检索中的应用   总被引:7,自引:7,他引:0  
Internet上的化学数据库是重要的专业资源,基于超链接分析的搜索引擎还不能索引这类资源。本论文以充分利用Internet上的化学数据库数据为目标,将“一个查询发动多个同级检索引擎,并以结构化的方式组织信息”的方案应用于以化合物标识信息为检索入口的Web化学数据库,建立了一个基于多站点集成检索的Web数据库定向查询引擎。该引擎是一个包括用户交互层、中间检索层、数据提供层的三层Web模型。各层在系统内部分别对应于响应用户检索请求的客户端代理模块、集成远程Web信息的服务器端代理模块,以及提供缓存和检索的关系数据库模块。模型采用JSP+Java组件的开发方式,在HTTP协议标准发送方法的基础上,采用XML技术对检索返回文档进行结构化数据的提取和表示,利用XML—DBMS实现XML数据的存储和检索,建立了一套针对深层Web数据交换的解决方案。依此方案所建立的ChemDB Portal Search实现了四个分布式Web化学数据库的有效加入、同时检索和统一显示。该系统是针对深层Web信息的挖掘和集成检索的一次尝试,它可为其它领域建立类似的系统提供借鉴。  相似文献   

15.
在同一领域中,不同Web数据库之间有重叠部分,为估计重叠部分在Web数据库中所占比例,提出一种基于属性高频字的重叠率估计方法。以中文高频字作为起点,迭代诱导属性高频字。通过属性高频字的查询结果计算匡叠部分出现的条件概率,进而估计重叠率。实验证明,该方法的偏差度和波动度都小于5。  相似文献   

16.
随着在线数据库应用的流行,整个互联网已经被迅速"深化".对于某一特定领域的deep Web,不同的站点往往会提供不同查询能力的查询接口.为了能够集成同一领域内的各个数据源,首先要解决的问题就是查询接口的集成.但是面对数量众多和结构各异的查询接口,基于人工或规则的集成方案显然无法适用.针对这种状况,提出了基于树合并的查询接口全自动集成方法.树结构可以充分体现查询接口属性之间的结构关系,通过树的合并来实现查询接口的集成.该方法不但能保持各个原始接口的结构特征,还具备良好的扩展性,以适应不断频繁更新的查询接口.最后通过多个领域的测试数据证明了本方法的有效性.  相似文献   

17.
Deep Web数据集成中查询处理的研究与进展   总被引:2,自引:0,他引:2  
随着Web上在线数据库的大量涌现,Deep Web数据集成成为当前信息领域的一个研究热点,而查询处理是其中的一个重要的组成部分。由于Web数据库具有规模大、自治性、异构性以及动态性等特点,使得Deep Web数据集成中的查询处理比传统的分布环境下的查询处理更具挑战性。围绕Deep Web数据集成中查询处理的三个关键研究点:模式匹配、Web数据库的选择以及查询转换,综述了近年来国际上相关的、具代表性的研究成果,分析了这些方法的优缺点,总结并展望了未来的发展方向。  相似文献   

18.
王兵  ;刘彩虹 《微机发展》2008,(7):176-180
随着Internet信息的迅速增长,许多Web信息已经被各种各样的可搜索在线数据库所深化,并被隐藏在Web查询接口下面。传统的搜索引擎由于技术原因不能索引这些信息——DeepWeb信息。由于DeepWeb惟一“入口点”是查询接口,为使查询接口自动产生有意义有查询,给出了DeepWeb信息集成系统框架,提出了基于数据类型的搜索驱动的用户查询转换方法,基于此设计并实现了一个针对中文DeepWeb信息集成原型系统。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号