首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 750 毫秒
1.
Deep Web中的海量信息只能通过查询接口访问获得,为了能够同时访问同一领域多个Web数据库,需要对多个Web数据库的查询接口进行集成.因此,引入本体技术,提出基于本体的Deep Web查询接口集成方法.Deep Web查询接口集成主要完成两个方面的工作:模式匹配与模式融合.模式匹配采用本体的"Bridge(桥接)"效应建立不同接口模式间的属性映射关系,以准确发现不同接口属性间的语义关联.模式融合根据模式匹配的结果,合并DeepWeb数据库查询接口集合中表示同一语义的属性,并尽可能地保持该领域查询接口的结构特征和属性顺序,以获得集成查询接口.通过实验分析,基于本体的DeepWeb查询接口集成方法不仅简化了模式匹配的复杂过程,而且很大程度上提高了模式集成的精度.因此,基于本体的Deep Web查询接口集成方法是高效可行的.  相似文献   

2.
在Deep Web页面的背后隐藏着海量的可以通过结构化的查询接口进行访问的数据源。将这些数据源按所属领域进行组织划分,是DeepWeb数据集成中的一个关键步骤。已有的划分方法主要是基于查询接口模式和提交查询返回结果,存在查询接口特征难以完全抽取和提交数据库查询效率不高等问题。提出了一种结合网页文本信息,基于频繁项集的聚类方法,根据数据源查询接口所在页面的标题、关键词和提示文本,将数据源按照领域进行聚类,有效解决了传统方法中依赖查询接口特征以及文本模型的高维性问题。实验结果表明该方法是可行的,具有较高的效率。  相似文献   

3.
Deep Web数据源聚类与分类   总被引:1,自引:0,他引:1  
随着Internet信息的迅速增长,许多Web信息已经被各种各样的可搜索在线数据库所深化,并被隐藏在Web查询接口下面.传统的搜索引擎由于技术原因不能索引这些信息--Deep Web信息.本文分析了Deep Web查询接口的各种类型,研究了基于查询接口特征的数据源聚类方法和基于聚类结果的数据源分类方法,讨论了从基于规则与线性文档分类器中抽取查询探测集的规则抽取算法和Web文档数据库分类的查询探测算法.  相似文献   

4.
Deep Web查询接口是Web数据库的接口,其对于Deep Web数据库集成至关重要。本文根据网页表单的结构特征定义查询接口;针对非提交查询法,给出界定Deep Web查询接口的一些规则;提出提交查询法,根据链接属性的特点进行判断,找到包含查询接口的页面;采用决策树C4.5算法进行分类,并用Java语言实现Deep Web查询接口系统。  相似文献   

5.
近年来,随着Web上在线数据库的大量涌现,Deep Web数据集成(即Web数据库集成)成为当前信息领域的一个研究热点.查询转换是其中的核心部分,它主要负责将集成接口上的查询转换到相关Web数据库的接口上.由于Web数据库具有异构性和自治性的特点, 各查询接口上的属性名、数据格式以及查询能力都不尽相同,因此相当一部分查询不能进行精确转换,那么选择何种策略进行近似查询转换是一个很具有挑战性的工作.对这一问题进行了深入探讨,提出了基于最小超集的近似查询转换方法.实验结果表明,该方法在Deep Web数据集成中可以有效地提高返回结果的准确性.  相似文献   

6.
基于《知网》的中文Deep Web模式匹配算法研究   总被引:1,自引:1,他引:0  
金玉  范学峰 《计算机应用研究》2009,26(10):3750-3753
随着数据库在Internet中的应用日益广泛,Deep Web集成(即Web数据库集成)成为当前信息领域的研究热点,模式匹配是Deep Web查询接口集成中的一个关键问题。目前大多数这方面的研究都是基于英文的,针对这种情况,探讨了中文Deep Web查询接口的模式匹配方法,并提出了一种基于《知网》、面向中文语义的模式匹配算法,并利用属性在查询接口上的相对位置信息解决语义冲突。手工收集查询表单对算法进行验证,实验表明该方法能使得接口之间属性匹配的正确率达到90 %以上。  相似文献   

7.
电子商务网站以查询接口的方式提供商务信息,查询接口也是隐藏在后端的Deep Web数据库模式信息的载体.有效解析查询接口是访问Deep Web资源的第1步,但是由于查询接口在不同的设计模式和开发语言下实现,所以导致了属性难以抽取、语义关系复杂的现象.为提高属性抽取的准确率且实现在语义层面上对查询接口的解读,提出一种以查询接口启发式信息为基础的属性抽取方法,通过使用本体工具对属性集合进行拓展并获取语义描述.在实际的电子商务网站上进行的广泛实验证明了提出方法的可行性与有效性.  相似文献   

8.
Deep Web查询接口的判定技术研究   总被引:1,自引:0,他引:1  
互联网的飞速发展,给人类带来了海量的可供访问信息,但是,现今搜索引擎索引的绝大部分是表层Surface Web网的信息,限于一些技术原因,搜索引擎几乎无法索引到Deep Web网中的信息。由于查询接口是Deep Web的唯一入口,但并非所有的网页表单都是查询接口,为了能充分利用Deep Web后台数据库信息,首先要找到进入Deep Web后台数据库的入口,所以对查询接口的正确判定至关重要。文中介绍了利用决策树CA.5分类算法自动判定网页表单是否为Deep Web查询接口的方法。  相似文献   

9.
获取Deep Web中信息的主要途径是通过在其提供的查询接口上提交查询来实现的,目前大部分的研究以表单内的
标签获得表单内容结构,判断是不是一个Deep Web查询接口。提出了接口块的概念,设计了一种基于页面信息和视觉信息的接口块定位方法,最后将判定接口块是不是Deep Web接口看作是一个模式识别的分类问题,通过抽取适当的表单结构特征,采用C4.5决策树和SVM相结合的分类算法来进行接口块的判定,得到页面中含有的Deep Web查询接口。采用UIUC的TEL-8数据集进行实验,结果表明,该方法的准确率达到了97.30%,具有良好的可行性和实用性。  相似文献   

10.
Deep Web中蕴含着大量高质量的数据,然而只有通过Web查询接口对Web数据库提交查询才能获取这些数据,因此,自动获取Web查询接口模式是实现Web数据库集成的关键.将Web查询接口模式的抽取过程看作一个词法分析的过程,通过构建EGLM-FA(元素分组及标签匹配有限状态自动机)来完成对Web查询接口模式的抽取.首先应用Html呈现引擎将Web查询接口所在页面进行解析,利用查询接口Form中的DOM节点及其坐标信息构建相应的NSS(节点空间结构),之后再将所有的NSS组成NSS列表,将NSS列表作为EGLM-FA的输入,进而抽取出Web查询接口的模式.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号