首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
深度万维网蕴藏着海量的信息,现有的搜索引擎很难搜索到其中的内容.如何充分地获取深度万维网中的有价值的信息成为一个难题.论文提出了基于关键词的深度万维网的数据库的查询方法,该方法采用朴素贝叶斯算法对关键词进行分类,并采用日志挖掘对采样的数据库进行统计,最终生成查询的SQL,语句.该方法不仅解决了深度万维网多领域的数据库查询,而且能够与现有的搜索引擎进行整合,帮助用户快速有效的查询.  相似文献   

2.
范举  周立柱 《计算机学报》2011,34(10):1797-1804
该文提出一种基于关键词的深度万维网查询方法:用户用关键词的方式提交查询,该方法在线地选择能够反映查询意图并且提供高质量结果的万维网数据库.这种方法既避免了深度万维网数据抓取这一代价高、难度大的操作,又可支持多领域的数据库上的关键词查询,从而能够与现有的搜索引擎实现无缝集成.文中侧重于讨论基于关键词的数据库选择,从以下两...  相似文献   

3.
●万维网之前在万维网出现之前,人们是怎么在网络上查询资料的呢?目前,世界上还存在着为数不多的为公众提供服务的Telnet服务器,大家可以试着使用Telnet客户端软件(Windows操作系统一般会自带),体验一下原始的"网络冲浪"。例如,用Telnet登录rainmaker.wunderground.com服务器,查看全球主要城市的天气实况(如图1)。  相似文献   

4.
《计算机与网络》2012,(12):38-39
网络爬虫概述网络爬虫(Web Crawler),又称网络蜘蛛(Web Spider)或网络机器人(Web Robot),是一种按照一定的规则自动抓取万维网资源的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取  相似文献   

5.
聚焦爬虫技术研究综述   总被引:51,自引:1,他引:50  
周立柱  林玲 《计算机应用》2005,25(9):1965-1969
因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。至今,聚焦爬虫已成为有关万维网的研究热点之一。文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析。在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,W eb数据清洗,以及搜索空间的扩展等。  相似文献   

6.
语义万维网是目前国际万维网联盟(world wide web consortium,W3C)为了解决因Web上的数据缺少语义信息而难以实现自动化处理的问题所开展的研究项目,其目的是为了对Web上发布的信息实现智能推理和自动化处理。Agent作为一种智能化主体,非常适合语义万维网环境下的各种应用。在语义万维网和智能Agent研究的基础上,综合信息检索、知识表示、Ontology建模等多方面技术,提出并实现了一个基于Ontology实现语义信息检索的多Agent系统框架,该系统包括信息收集、存储、查询和推理4个主要部分。  相似文献   

7.
IT专家预测互联网技术在继传统互联网(Internet)、万维网(Web)之后第三次大浪潮——网格将在2004~2005年度到来,这一波浪潮的本质就是万维网升华为网格(Great Global Grid)。网格将实现互联网上所有资源的全面联通,包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等等,最终实现网络虚拟环境上的资源共享和协同工作,消除信息孤岛和资源孤岛。 长期以来,很多专家都在批评因特网和万维网,说它们是垃圾山,人们不停地往里倒东西,结果使它们包含  相似文献   

8.
Http简史     
超文本传输协议(Http)是分布式协作超媒体信息系统的应用协议,超文本传输协议是万维网数据通信的基础,在万维网中超文本文档包括用户可以访问其他资源的超链接.Http超文本传输协议在网络中如同空气一般,感触不到它的存在但又是无处不在.  相似文献   

9.
使用分类器自动发现特定领域的深度网入口   总被引:4,自引:0,他引:4  
王辉  刘艳威  左万利 《软件学报》2008,19(2):246-256
在深度网研究领域,通用搜索引擎(比如Google和Yahoo)具有许多不足之处:它们各自所能覆盖的数据量与整个深度网数据总量的比值小于1/3;与表层网中的情况不同,几个搜索引擎相结合所能覆盖的数据量基本没有发生变化.许多深度网站点能够提供大量高质量的信息,并且,深度网正在逐渐成为一个最重要的信息资源.提出了一个三分类器的框架,用于自动识别特定领域的深度网入口.查询接口得到以后,可以将它们进行集成,然后将一个统一的接口提交给用户以方便他们查询信息.通过8组大规模的实验,验证了所提出的方法可以准确高效地发现特定领域的深度网入口.  相似文献   

10.
万维风知识挖掘方法的研究   总被引:11,自引:0,他引:11  
1.引言万维网(World Wide Web)的出现使计算机拥有海量的信息资源,然而这些信息却很少以计算机可理解的结构存在,因为,万维网上的页面本来就是以人,而不是计算机为其阅读对象的。因此,复杂的文本结构、图像、声音等多种信息的存在,既把万维网变成一种丰富多采的媒体,又造成了计算机对万维网信息进一步处理的障碍。  相似文献   

11.
针对《基础教育教学资源元数据应用规范》中资源建设标准的缺陷,提出一种基于Deep Web集成技术的教育资源跨库检索系统设计方案。该系统包含知识发现、集成查询、知识库和系统监控等模块,加入了环境变化监控构件,并在多个环节中采用自动化方式。  相似文献   

12.
针对联基础教育教学资源元数据应用规范》中资源建设标准的缺陷,提出一种基于DeepWeb集成技术的教育资源跨库检索系统设计方案。该系统包含知识发现、集成查询、知识库和系统监控等模块,加入了环境变化监控构件,并在多个环节中采用自动化方式。  相似文献   

13.
王兵  ;刘彩虹 《微机发展》2008,(7):176-180
随着Internet信息的迅速增长,许多Web信息已经被各种各样的可搜索在线数据库所深化,并被隐藏在Web查询接口下面。传统的搜索引擎由于技术原因不能索引这些信息——DeepWeb信息。由于DeepWeb惟一“入口点”是查询接口,为使查询接口自动产生有意义有查询,给出了DeepWeb信息集成系统框架,提出了基于数据类型的搜索驱动的用户查询转换方法,基于此设计并实现了一个针对中文DeepWeb信息集成原型系统。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。  相似文献   

14.
在Deep Web页面的背后隐藏着海量的可以通过结构化的查询接口进行访问的数据源。将这些数据源按所属领域进行组织划分,是DeepWeb数据集成中的一个关键步骤。已有的划分方法主要是基于查询接口模式和提交查询返回结果,存在查询接口特征难以完全抽取和提交数据库查询效率不高等问题。提出了一种结合网页文本信息,基于频繁项集的聚类方法,根据数据源查询接口所在页面的标题、关键词和提示文本,将数据源按照领域进行聚类,有效解决了传统方法中依赖查询接口特征以及文本模型的高维性问题。实验结果表明该方法是可行的,具有较高的效率。  相似文献   

15.
针对Deep Web环境中存在的失败查询,提出了一种有效的查询松弛策略.所有Deep Web资源按查询接口属性分组,组成全局数据源关系图(DRG);针对特定查询将DRG转换为对应该查询请求的数据源关系图;利用该DRG,按照特定的规则进行查询松弛和执行处理.针对查询松弛导致的部分结果可能与用户查询请求的相似度较低的问题,提出先通过Skyline方法对结果进行筛选,然后再根据各个结果实例与用户查询的相似度进行Top-k排序,最后将最接近用户要求的结果集返回给用户.通过实验验证了提出的查询松弛策略的有效性.  相似文献   

16.
The key to Deep Web Crawling is to submit valid input values to a query form and retrieve Deep Web content efficiently. In the literature, related work focus only on generic text boxes or entire query forms, causing the problem of “data islands” or inferior validity of query submission. This paper proposes the concept of Minimum Executable Pattern (MEP), a minimal combination of elements in a query form that can conduct a successful query, and then presents a MEPGeneration method and a MEP-based Deep Web adaptive crawling method. The query form is parsed and partitioned into MEP set, and then local-optimal queries are generated by choosing a MEP in the MEP set and a keyword vector of the MEP. Furthermore, the crawler can make a decision on its termination to balance the trade-off between high coverage of the content and resource consumption. The adoption of MEP is expected to improve the validity of query submission, and adaptive selection of multiple MEPs shows good effect for overcoming the problem of “data islands”. We present a set of experiments to validate the effectiveness of the proposed method. Experimental results show that our method outperforms the state of art methods in terms of query capability and applicability, and on average, it achieves good coverage by issuing only a few hundred queries.  相似文献   

17.
一种基于图模型的Web数据库采样方法   总被引:5,自引:0,他引:5  
刘伟  孟小峰  凌妍妍 《软件学报》2008,19(2):179-193
Web数据库中,海量的信息隐藏在具有特定查询能力的查询接口后面,使人无法了解一个Web数据库内容的特征,比如主题的分布、更新的频率等,这就为DeepWeb数据集成带来了巨大的挑战.为了解决这个问题,提出了一种基于图模型的Web数据库采样方法,可以通过查询接口从Web数据库中以增量的方式获取近似随机的样本,即每次查询获取一定数量的样本记录,并且利用已经保存在本地的样本记录生成下一次的查询.该方法的一个重要特点是不受查询接口中属性表现形式的局限,因此是一种一般的Web数据库采样方法.在本地的模拟实验和真实Web数据库上的大量实验表明,该方法可以在较小代价下获得高质量的样本.  相似文献   

18.
基于《知网》的中文Deep Web模式匹配算法研究   总被引:1,自引:1,他引:0  
金玉  范学峰 《计算机应用研究》2009,26(10):3750-3753
随着数据库在Internet中的应用日益广泛,Deep Web集成(即Web数据库集成)成为当前信息领域的研究热点,模式匹配是Deep Web查询接口集成中的一个关键问题。目前大多数这方面的研究都是基于英文的,针对这种情况,探讨了中文Deep Web查询接口的模式匹配方法,并提出了一种基于《知网》、面向中文语义的模式匹配算法,并利用属性在查询接口上的相对位置信息解决语义冲突。手工收集查询表单对算法进行验证,实验表明该方法能使得接口之间属性匹配的正确率达到90 %以上。  相似文献   

19.
Deep Web查询接口是Web数据库的接口,其对于Deep Web数据库集成至关重要。本文根据网页表单的结构特征定义查询接口;针对非提交查询法,给出界定Deep Web查询接口的一些规则;提出提交查询法,根据链接属性的特点进行判断,找到包含查询接口的页面;采用决策树C4.5算法进行分类,并用Java语言实现Deep Web查询接口系统。  相似文献   

20.
Deep Web数据集成研究综述   总被引:24,自引:1,他引:24  
刘伟  孟小峰  孟卫一 《计算机学报》2007,30(9):1475-1489
随着World Wide Web(WWW)的飞速发展,Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长.这些信息要通过查询接口在线访问其后端的Web数据库.尽管丰富的信息蕴藏在Deep Web中,由于Deep Web数据的异构性和动态性,有效地把这些信息加以利用是一件十分挑战性的工作.Deep Web数据集成至今仍然是一个新兴的研究领域,其中包含有若干需要解决的问题.总体来看,在该领域已经开展了大量的研究工作,但各个方面发展并不均衡.文中提出了一个Deep Web数据集成的系统架构,依据这个系统架构对Deep Web数据集成领域中若干关键研究问题的现状进行了回顾总结,并对未来的研究发展方向作了较为深入的探讨分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号