首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 547 毫秒
1.
在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。文中在分析主题爬虫的结构及特征的基础上,通过引入自己的主题相关度评价方法以及HITS网页排序算法,构建了一个主题爬虫。文中给出了爬虫实现的具体步骤,以云计算为主题,进行了实验。实验结果较好地反映了主题爬虫的实用性。  相似文献   

2.
针对目前通用搜索引擎对林业主题信息覆盖率和查准率较低的不足,提出了一种基于Shark-Search算法的林业主题爬虫设计方案。详细讨论了该主题爬虫的爬行策略、算法描述及实现,并通过实践构建了林业主题搜索引擎"搜林"。实验结果表明,相对于通用搜索引擎,"搜林"减少了搜索结果的信息量,提高了林业主题信息搜索的准确率。  相似文献   

3.
随着互联网技术的飞速发展,网页数量急剧增加,搜索引擎的地位已经不可取代,成为人们使用Internet的入口。网络蜘蛛作为搜索引擎的信息来源是搜索引擎必不可少的组成部分。介绍网络蜘蛛设计中的关键技术。另外,随着用户个性化需求越来越强以及网页数量的急剧增加导致通用搜索引擎无法满足特定用户的需求,专业搜索引擎得到快速的发展。同时对于主题爬虫的研究也有很大的突破和进展。主题爬虫有别于通用爬虫,通用爬虫注重爬取的完整性,而主题爬虫强调网页与特定主题的相关性。同时对主题爬虫的研究现状进行介绍和总结。  相似文献   

4.
网页标题分析对主题爬虫的改进   总被引:3,自引:1,他引:2  
随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确的主题爬虫显得十分迫切.然而目前的主题爬虫所采用的两种基本抓取网页的方式效率比较低下.提出了一种通过网页标题分析对主题爬虫的改进方案,比较了引人标题分析前后的结果,论证了设计的可行性与可操作性,优化了主题爬虫对同类型特定信息的抓取.  相似文献   

5.
随着网络信息海量爆炸性增长,通用搜索引擎面临着索引规模、更新速度、个性化需求等多方面的挑战。面对这些挑战,适应特定主题和个性化搜索的主题爬虫应用产生。在这里它介绍了基于主题爬虫的个性化搜索引擎的体系结构、搜索策略、相关度等知识。详细的介绍了基于链接结构的搜索算法及改进策略。  相似文献   

6.
无论是通用搜索还是垂直搜索,其关键的核心技术之一就是网络爬虫的设计.本文结合HTMLParser信息提取方法,对生活类垂直搜索引擎中网络爬虫进行了详细研究.通过深入分析生活类网站网址的树形结构的构架,开发了收集种子页面URL的模拟搜索器,并基于HTMLParser的信息提取方法,从种子页面中提取出与生活类主题相关的目标URL.经实验测试证明该爬虫的爬准率达93.552%,爬全率达96.720%,表明该网络爬虫是有效的,达到中等规模的垂直搜索企业级应用的要求.  相似文献   

7.
因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页,为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究思路和方法。该文针对聚焦爬虫这一研究热点,对现今聚焦爬虫的爬行方法(主要是网页分析算法和网页搜索策略)做了深入分析和对比,提出了一种改进的聚焦爬行算法。这种基于类间规则的聚焦爬行方法借助baseline聚焦爬虫的架构,应用朴素的贝叶斯分类器并利用主题团间链接的统计关系构造规则找到在一定链接距离内的"未来回报"页面,并通过实验对该算法的性能进行分析、评价,证明其对聚焦爬虫的爬行收获率和覆盖率有很好的改善。  相似文献   

8.
为满足用户精确化和个性化获取信息的需要,通过分析Deep Web信息的特点,提出了一个可搜索不同主题Deep Web 信息的爬虫框架.针对爬虫框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不同主题的Deep Web数据库和采用常用字最大限度下载Deep Web信息的技术.实验结果表明了该框架采用的技术是可行的.  相似文献   

9.
如今,互联网集成的与暴雨灾害相关的信息多种多样,然而人工搜索网页信息的效率不高,因此网络主题爬虫显得十分重要。在通用网络爬虫的基础上,为提高主题相关度的计算精度并预防主题漂移,通过对链接锚文本主题相关度、链接所在网页的主题相关度、链接指向网页PR值和该网页主题相关度的综合计算,提出了基于网页内容和链接结构相结合的超链接综合优先度评估方法。同时,针对搜索过程易陷入局部最优的不足,首次设计了结合爬虫记忆历史主机信息和模拟退火的网络主题爬虫算法。以暴雨灾害为主题进行爬虫实验的结果表明,在爬取相同网页数的情况下,相比于广度优先搜索策略(Breadth First Search,BFS)和最佳优先搜索策略(Optimal Priority Search,OPS),所提出的算法能抓取到更多与主题相关的网页,爬虫算法的准确率得到明显提升。  相似文献   

10.
张俊  李鲁群  周熔 《微机发展》2013,(6):230-232
互联网搜索的精确性一直是衡量搜索引擎性能的重要标志。针对普通搜索引擎的固有缺陷,文中提出了一种应用于新闻检索的搜索引擎。该引擎是利用开源的网络爬虫工具将互联网信息抓取到本地,并利用Lucene开放的API,对特定的信息进行索引和搜索。Lucene是基于Java开发的源代码开放的全文检索工具包,具有高性能、可扩展等特性,是实现搜索引擎的核心组件。通过对Lucene的API进行分析,并在此基础上,构建了索引和搜索的模块,并对网上新闻内容进行实时地搜索。通过与普通搜索引擎对比,该新闻搜索引擎提高了搜索的精确性。  相似文献   

11.
The web is nowadays one of the main information sources, and information search is an important area in which many advances have been registered. One approach to improve web search results is to consider contextual information. Usually, information about context has been provided through user logs on previous searches or the monitoring of clicks on first results, but different approaches can be used in specific environments. In a web based learning environment, existing documents and exchanged messages could provide contextual information. So, the main goal of this work is to provide a contextual web search engine based on shared documents and messages posted in a social network used for collaborative learning. Contextual search is provided through query expansion using learning documents (material provided by the teacher) and discussion messages (posts, links and comments that result from the participants’ interactions). A prototype was implemented and used in a learning scenario to acquire the context in a learning community. The proposed approach makes the context acquisition faster and more dynamic as it considers an automatic approach over text processing of documents and discussions. In addition, the results of the query engine with and without the contextual information were compared and the proposed approach using contextual information showed improvements in the precision of the results.  相似文献   

12.
现有神经网络处理器已广泛应用于计算机视觉、自然语言处理等领域。然而,现有片上加速方案对控制领域的强化学习算法支持较少,而基于神经网络的强化学习是智能系统决策技术的核心。该文采用可重构阵列体系结构,通过片上配置、动作与奖励存储的系统设计方案,可实现多种神经网 络算法的灵活部署,并支持强化学习使用模式。基于 65 nm CMOS 工艺的逻辑综合结果显示,处理器主频为 200 MHz 时,计算模块面积仅需 0.32 mm2,计算功率约 15.46 mW。  相似文献   

13.
强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化:值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境模型的离散空间值迭代算法进行研究,并且把该算法用于固定起点和随机起点的格子世界问题。实验结果表明,相比策略迭代算法,该算法收敛速度快,实验精度好。  相似文献   

14.
Web服务检索的困难阻碍了其应用和发展的速度。在实现了一个Web服务搜索引擎WSSE后,服务的排序成为需要解决的问题。通过Web服务爬虫的爬行特点分析Web服务的分布结构和相互关系,借鉴著名的网页排序算法PageRank及其改进算法的研究成果,创新地提出WSRank算法。迭代计算各服务的排序值,按值进行非递增排序。实验表明,本算法能提高Web服务检索的准确性。  相似文献   

15.
一种WWW搜索引擎的设计与实现   总被引:2,自引:1,他引:2  
随着Internet在我国的迅速发展和WWW信息的不断增长,迫切需要开发中英文兼容的WWW搜索引擎来获得所需的信息。该文在分析WWW搜索引擎主要功能模块:信息采集模块、信息预处理模块和信息查询模块的基础上,提出采用人工智能搜索算法来遍历网页,对中英文网页进行自动的索引,并用向量空间的表示方法来表示网页内容和用户输入的查询表达式。实践证明,使用该搜索引擎,可以快速准确地搜索到用户所需的信息。  相似文献   

16.
This paper presented a novel approach accuracy-based learning classifier system with gradient descent (XCS-GD) to research on swarm robots reinforcement learning convergence. XCS-GD combines covering operator and genetic algorithm. XCS-GD is responsible for adjusting precision and reducing search space according to some reward obtained from the environment, XCS-GD’s innovation discovery component is responsible for discovering new better reinforcement learning rules. The experiment and simulation showed that XCS-GD approach can achieve convergence very quickly in swarm robots reinforcement learning.  相似文献   

17.
In order to improve the learning ability of robots, we present a reinforcement learning approach with a knowledge base for mapping natural language instructions to executable action sequences. A simulated platform with physical engine is built as interactive environment. Based on the knowledge base, a reward function with immediate rewards and delayed rewards is designed to handle sparse reward problems. Also, a list of object states is produced by retrieving the knowledge base, as a standard to define the quality of action sequences. Experimental results demonstrate that our approach yields good performance on accuracy of action sequences production.  相似文献   

18.
Deep web or hidden web refers to the hidden part of the Web (usually residing in structured databases) that remains unavailable for standard Web crawlers. Obtaining content of the deep web is challenging and has been acknowledged as a significant gap in the coverage of search engines. The paper proposes a novel deep web crawling framework based on reinforcement learning, in which the crawler is regarded as an agent and deep web database as the environment. The agent perceives its current state and selects an action (query) to submit to the environment (the deep web database) according to Q-value. While the existing methods rely on an assumption that all deep web databases possess full-text search interfaces and solely utilize the statistics (TF or DF) of acquired data records to generate the next query, the reinforcement learning framework not only enables crawlers to learn a promising crawling strategy from its own experience, but also allows for utilizing diverse features of query keywords. Experimental results show that the method outperforms the state of art methods in terms of crawling capability and relaxes the assumption of full-text search implied by existing methods.  相似文献   

19.
A neural network-based intelligent metasearch engine   总被引:12,自引:0,他引:12  
Determining the relevancy of web pages to a query term is basic to the working of any search engine. In this paper we present a neural network based algorithm to classify the relevancy of search results on a metasearch engine. The fast learning neural network technology used by us enables the metasearch engine to handle a query term in a reasonably short time and return the search results with high accuracy.  相似文献   

20.
折扣报酬模型强化学习是目前强化学习研究的主流,但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响,而有时候较大远期期望报酬的策略有可能是最优的,因此比较合理的方法是采用平均报酬模型强化学习。该文介绍了平均报酬模型强化学习的两个主要算法以及主要应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号