首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
提出一种基于本体的Deep Web数据源发现方法,采用网页分类、表单内容分类、表单结构分类方式,确定符合某领域的Deep Web查询接口。在网页分类和表单内容分类中引入本体的半自动构建和自动扩展模块,在表单结构分类中添加启发式规则。实验结果证 明,该方法能有效提高Deep Web数据源的查全率和查准率。  相似文献   

2.
Deep Web中的海量信息只能通过查询接口访问获得,为了能够同时访问同一领域多个Web数据库,需要对多个Web数据库的查询接口进行集成.因此,引入本体技术,提出基于本体的Deep Web查询接口集成方法.Deep Web查询接口集成主要完成两个方面的工作:模式匹配与模式融合.模式匹配采用本体的"Bridge(桥接)"效应建立不同接口模式间的属性映射关系,以准确发现不同接口属性间的语义关联.模式融合根据模式匹配的结果,合并DeepWeb数据库查询接口集合中表示同一语义的属性,并尽可能地保持该领域查询接口的结构特征和属性顺序,以获得集成查询接口.通过实验分析,基于本体的DeepWeb查询接口集成方法不仅简化了模式匹配的复杂过程,而且很大程度上提高了模式集成的精度.因此,基于本体的Deep Web查询接口集成方法是高效可行的.  相似文献   

3.
随着Internet的发展,Web正在不断深人人们的生活.传统搜索引擎只能检索浅层网络(Surface Web),不能直接索引到深层网络(Deep Web)的资源.为了有效利用Deep Web资源,对Deep Web数据源发现并进行领域类别的划分,已成为一个非常迫切的问题.该模型首先抽取Deep Web页面查询接口的特征,构造了一个Deep Web页面过滤器,从而能够发现Deep Web的数据源,其次在对查询接12特征进行分析后,构建了一个基于KNN的分类器,并通过该分类器对新产生的Deep Web数据源进行领域分类.试验结果表明,这种模型的平均分类准确率达到86.9%,具有良好的分类效果.  相似文献   

4.
随着Internet技术的快速发展,Web数据库数目庞大而且仍在快速增长。为有效组织利用深藏于Web数据库上的信息,需对其按领域进行分类和集成。Web页面上的查询接口是网络用户访问Web数据库的唯一途径,对Deep Web数据源分类可通过对查询接口分类实现。为此,提出一种基于查询接口文本VSM(Vector Space Model)的分类方法。首先,使用查询接口文本信息构建向量空间模型,然后通过典型的数据挖掘分类算法训练分类器,从而实现对查询接口所属领域进行分类。实验结果表明给出的方法具有良好的分类性能。  相似文献   

5.
深层网数据库的访问方式主要是通过查询接口,所以查询接口是外部访问深层网数据库的门户.为了能够同时访问同一领域多个Web数据库,需要对多个Web数据库的查询接口进行集成.因此,提出基于本体的深层网查询接口集成方法.首先构建领域核心本体,在模式匹配过程中,不断完善核心本体;然后,以本体作为媒介,在不同查询接口模式间建立属性映射关系,发现属性间的语义关联;最后,根据本体概念出现的频数生成集成接口.实验表明提出的深层网查询接口自动集成方法是可行的和高效的.  相似文献   

6.
Deep Web数据源发现是指从Web中搜索到含有Web数据库的Deep Web站点。查询接口作为DeepWeb数据源信息访问的唯一入口,发现工作更多地转向了对查询接口的判定。本文在处理时,首先构建领域本体模型,并利用HowNet语义知识辞典进行语义相似度计算,完成查询接口判定工作,同时通过启发式规则提高查询接口判定的效率。  相似文献   

7.
Deep Web蕴涵丰富的分类信息,是融合型在线旅游业务良好的数据源。本文对Deep Web接口模式进行分析,提出了接口集成方案的流程和领域实例库的建模方法,并就酒店查询业务进行了对方案的评估。测试结果显示,在对接口页面一定积累的基础上,可以达到较高的模式匹配准确率,从而保证了Deep Web接口的正确的自动查询。  相似文献   

8.
将deep Web发掘与主题爬行技术有机地结合起来,对deep Web垂直搜索引擎系统的关键技术进行了深入研究.首先设计了deep Web主题爬行框架,它是在传统的主题爬行框架的基础上,加入了前端分类器作为爬行策略的执行机构,并对该分类器做定期的增量更新;然后使用主题爬行技术指导deep Web发掘,并且借助开源组件Lucene将主题爬行器所搜索的信息进行合理的安排,以便为检索接口提供查询服务.当用户向搜索引擎提交查询词后,Lucene缺省按照自己的相关度算法对结果进行排序.通过爬虫、索引器和查询接口的设计,实现了一个面向deep Web的垂直搜索引擎原型系统.  相似文献   

9.
Deep Web数据源聚类与分类   总被引:1,自引:0,他引:1  
随着Internet信息的迅速增长,许多Web信息已经被各种各样的可搜索在线数据库所深化,并被隐藏在Web查询接口下面.传统的搜索引擎由于技术原因不能索引这些信息--Deep Web信息.本文分析了Deep Web查询接口的各种类型,研究了基于查询接口特征的数据源聚类方法和基于聚类结果的数据源分类方法,讨论了从基于规则与线性文档分类器中抽取查询探测集的规则抽取算法和Web文档数据库分类的查询探测算法.  相似文献   

10.
获取Deep Web中信息的主要途径是通过在其提供的查询接口上提交查询来实现的,目前大部分的研究以表单内的
标签获得表单内容结构,判断是不是一个Deep Web查询接口。提出了接口块的概念,设计了一种基于页面信息和视觉信息的接口块定位方法,最后将判定接口块是不是Deep Web接口看作是一个模式识别的分类问题,通过抽取适当的表单结构特征,采用C4.5决策树和SVM相结合的分类算法来进行接口块的判定,得到页面中含有的Deep Web查询接口。采用UIUC的TEL-8数据集进行实验,结果表明,该方法的准确率达到了97.30%,具有良好的可行性和实用性。  相似文献   

11.
陈娟  王贤  黄青松 《现代计算机》2006,(9):19-21,62
近几年,网络被在线数据库迅速地深化.在深网中,大量的资料提供了丰富的数据模式,这些模式详细说明了它们的目标领域和查询性能,因此对大规模数据的整合是当前面临的挑战.在数据挖掘中,聚类分析是一个重要方法.本文论述通过查询接口采用凝聚层次聚类方法聚类结构化的Web资源,并采用先聚类后分类的方法稍加改进.实验显示对于聚类Web查询模式,凝聚的层次聚类能正确地组织资料.  相似文献   

12.
陈娟  王贤  黄青松 《微机发展》2007,17(11):107-109
近几年,网络被在线数据库迅速深化。在深网中,大量的资料提供了丰富的数据模式。这些模式详细说明了它们的目标领域和查询性能。因此对大规模数据的整合是当前面临的挑战。在数据挖掘中聚类分析是一个重要方法,为了发现通过这种统计分布管理的聚类,提出了一个新的目标函数:模型-区别(model-differentiation)。实验显示对于聚类Web查询模式,凝聚的层次聚类能正确地组织资料,区别模型函数胜过现有的凝聚的层次聚类。  相似文献   

13.
电子商务网站以查询接口的方式提供商务信息,查询接口也是隐藏在后端的Deep Web数据库模式信息的载体.有效解析查询接口是访问Deep Web资源的第1步,但是由于查询接口在不同的设计模式和开发语言下实现,所以导致了属性难以抽取、语义关系复杂的现象.为提高属性抽取的准确率且实现在语义层面上对查询接口的解读,提出一种以查询接口启发式信息为基础的属性抽取方法,通过使用本体工具对属性集合进行拓展并获取语义描述.在实际的电子商务网站上进行的广泛实验证明了提出方法的可行性与有效性.  相似文献   

14.
Interuet上有大量的页面是由后台数据库动态产生的,传统的搜索引擎搜索不出这部分页面,我们称之为深网,其中大部分深网信息是结构化的。将这些结构化的深网数据库按所属领域进行分类是获得深网信息的一个关键问题。本文针对已有深网数据库分类方法实现成本高昂、效率低下的问题,提出了一种基于Web日志粒度化的深网数据库分类算法,并通过实验检验了方法的分类效果。  相似文献   

15.
在Deep Web页面的背后隐藏着海量的可以通过结构化的查询接口进行访问的数据源。将这些数据源按所属领域进行组织划分,是DeepWeb数据集成中的一个关键步骤。已有的划分方法主要是基于查询接口模式和提交查询返回结果,存在查询接口特征难以完全抽取和提交数据库查询效率不高等问题。提出了一种结合网页文本信息,基于频繁项集的聚类方法,根据数据源查询接口所在页面的标题、关键词和提示文本,将数据源按照领域进行聚类,有效解决了传统方法中依赖查询接口特征以及文本模型的高维性问题。实验结果表明该方法是可行的,具有较高的效率。  相似文献   

16.
Deep web or hidden web refers to the hidden part of the Web (usually residing in structured databases) that remains unavailable for standard Web crawlers. Obtaining content of the deep web is challenging and has been acknowledged as a significant gap in the coverage of search engines. The paper proposes a novel deep web crawling framework based on reinforcement learning, in which the crawler is regarded as an agent and deep web database as the environment. The agent perceives its current state and selects an action (query) to submit to the environment (the deep web database) according to Q-value. While the existing methods rely on an assumption that all deep web databases possess full-text search interfaces and solely utilize the statistics (TF or DF) of acquired data records to generate the next query, the reinforcement learning framework not only enables crawlers to learn a promising crawling strategy from its own experience, but also allows for utilizing diverse features of query keywords. Experimental results show that the method outperforms the state of art methods in terms of crawling capability and relaxes the assumption of full-text search implied by existing methods.  相似文献   

17.
随着在线数据库应用的流行,整个互联网已经被迅速"深化".对于某一特定领域的deep Web,不同的站点往往会提供不同查询能力的查询接口.为了能够集成同一领域内的各个数据源,首先要解决的问题就是查询接口的集成.但是面对数量众多和结构各异的查询接口,基于人工或规则的集成方案显然无法适用.针对这种状况,提出了基于树合并的查询接口全自动集成方法.树结构可以充分体现查询接口属性之间的结构关系,通过树的合并来实现查询接口的集成.该方法不但能保持各个原始接口的结构特征,还具备良好的扩展性,以适应不断频繁更新的查询接口.最后通过多个领域的测试数据证明了本方法的有效性.  相似文献   

18.
针对Deep Web环境中存在的失败查询,提出了一种有效的查询松弛策略.所有Deep Web资源按查询接口属性分组,组成全局数据源关系图(DRG);针对特定查询将DRG转换为对应该查询请求的数据源关系图;利用该DRG,按照特定的规则进行查询松弛和执行处理.针对查询松弛导致的部分结果可能与用户查询请求的相似度较低的问题,提出先通过Skyline方法对结果进行筛选,然后再根据各个结果实例与用户查询的相似度进行Top-k排序,最后将最接近用户要求的结果集返回给用户.通过实验验证了提出的查询松弛策略的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号