首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
主题搜索引擎中网络爬虫的搜索策略研究   总被引:2,自引:0,他引:2       下载免费PDF全文
本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性算法--EPR算法。  相似文献   

2.
搜索引擎中网络蜘蛛的研究与实现   总被引:1,自引:0,他引:1  
网络蜘蛛程序是搜索引擎工作的基础和关键,实现了抓取网络资源的网络蜘蛛程序,通过入口网址下载网络资源,并对其分析,获得包含的其他链接,利用这些链接向整个网络扩散,下载其他资源。测试了蜘蛛程序抓取网页的能力,并对多线程实现的利弊进行讨论,总结了常用的算法搜索策略,提出了后续的研究方向。  相似文献   

3.
主题网络蜘蛛的搜索策略是主题搜索引擎的核心部分,是近年来主题搜索引擎研究中的热点问题之一。深入研究了主题网络蜘蛛的关键技术,阐述了多线程网络蜘蛛的实现过程,并对传统的VSM算法和PageRank算法进行了改进,提高了主题网络蜘蛛采集信息的有效性和准确性。  相似文献   

4.
专业搜索引擎搜索策略综述   总被引:17,自引:0,他引:17  
按照评价链接价值所采用方法的不同,对专业搜索引擎的搜索策略进行了分类,分析了各类搜索策略的特点,比较了它们的优缺点。对未来的研究方向进行了展望,给出了若干值得研究的问题。  相似文献   

5.
朱明  王镇  周津 《计算机仿真》2005,22(9):109-112
随着互联网的迅猛发展,如何快速、有效、准确地搜索信息成为迫切需要解决的问题.该文针对传统的基于主题搜索算法执行效率不高、精确度低的缺点,设计了一种基于机器学习的链接分层搜索算法.该算法通过机器学习,得到页面链接模式并对待扩展结点分层.此算法能够有效地获得期望页面,从而避免遍历大量无关页面,提高了主题相关页面的获取效率和准确性.在对100家公司基于产品主题页面的搜索实验中获得了较好的效果,证明该算法具有很好的执行效率和实际可行性.  相似文献   

6.
为了解决传统主题爬虫效率偏低的问题,传统主题爬虫会选择最有价值的链接进行访问,仅简单地计算链接的相关性,却忽视待分析URL之间的相关性关系,致使主题爬虫爬取效率较低。提出一种基于链接模型的相关性判别算法,综合利用有标种子URL和无标的待判别URL实现对无标URL的相关性判别,并推导出迭代初值选取对结果的不敏感性。实验结果表明,与传统的网络爬虫算法相关性判别方法相比,提出的方法效率更高。  相似文献   

7.
汲业  陈燕  杨健  慕蓉 《计算机工程》2010,36(24):24-26
根据生活服务领域网页信息的特点,提出一种面向生活服务领域的垂直搜索引擎模型,给出该模型在信息采集、信息抽取、索引建立和信息检索4个功能模块的具体算法及实现方式。实际应用表明,该模型搜索效果良好,提供HTML和WML 2种方式的用户界面,已经成功覆盖全国近40个城市的餐饮、娱乐和黄页信息。  相似文献   

8.
基于广度优先搜索的网络蜘蛛设计   总被引:1,自引:0,他引:1  
郑泳 《软件导刊》2010,(7):122-123
网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一,如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求是目前所面临的重要问题。重点阐述了搜索引擎的Web Spider(网络蜘蛛)的搜索策略和搜索优化措施,提出了一种简单的基于广度优先算法的网络蜘蛛设计方案,并分析了设计过程中的优化措施。  相似文献   

9.
企业专用搜索引擎的搜索策略   总被引:3,自引:2,他引:1  
分析了现有的通用搜索引擎技术,并指出了其局限性。针对企业用户的需求,提出构建面向企业用户的专用搜索引擎的设计思想。该设计采用人工智能启发式搜索的思想,在企业用户设定的种子站点集和关键词集的基础上,根据网页和链接的评价值进行有针对性的搜索,提高了专用搜索引擎的效率,并为个性化的服务提供了基础。  相似文献   

10.
根据网络页面结构的特点,提出通过页面之间的主题传递来预测页面主题相关性的方法,解决了主题爬虫通道堵塞,抓取遗漏的问题。首先根据锚文本传递一个相关性信息值,如果锚文本给出的信息是相关,相关阈值就直接传递;如果是不相关,就乘以遗传基因比例之后传递。传递的过程中如果遇到相关的网页就恢复链接的相关性信息值到初始值。最后根据实验结果验证了算法的查全率与查准率,查全率有显著的提高。  相似文献   

11.
网络搜索分析在优化搜索引擎方面具有举足轻重的作用,而且对用户个人搜索特性进行分析能够提高搜索引擎的精准度。目前,大多数已有模型(比如点击图模型及其变体),注重研究用户群体的共同特点。然而,关于如何做到既可以获取用户群体共同特点又可以获取用户个人特点方面的研究却非常少。本文研究了基于个人用户网络搜索分析新问题,即通过研究用户搜索的突发性现象,获取个人用户搜索查询的主题分布情况。提出了两个搜索主题模型,即搜索突发性模型(SBM)和耦合敏感搜索突发性模型(CS-SBM)。SBM假设查询词和URL主题是无关的,CS-SBM假设查询词和URL之间是有主题关联的,得到的主题分布信息存储在偏Dirichlet先验中,采用Beta分布刻画用户搜索的时间特性。实验结果表明,每一个用户的网络搜索轨迹都有多种基于用户的独有特点。同时,在使用大量真实用户查询日志数据情况下,与LDA、DCMLDA、TOT相比,本文提出的模型具有明显的泛化性能优势,并且有效地描绘了用户搜索查询主题在时间上的变化过程。  相似文献   

12.
基于语义分析的垂直搜索网络蜘蛛   总被引:1,自引:0,他引:1  
通用搜索引擎数据量庞大,但查询结果不够准确.分类目录正好相反.为了综合两者优势,对垂直搜索引擎进行了研究和分析.着重研究了垂直搜索引擎的核心模块--智能网络搜索蜘蛛.提出了搜索分析的新概念--规则.研究了蜘蛛中定义支持同义词的语义词典的方法,给出了按照规则分析和检索的实现方法和流程.程序需要定义多种规则,让蜘蛛依照规则进行网页爬行和信息采集.最后给出一个项目实例,证明了上述方法的可行性.  相似文献   

13.
为了实现智能化搜索,基于知识库的启发式智能搜索引擎(KHISE)采用基于Web挖掘技术的聚焦爬行器采集信息;使用正则表达式、自然语言理解等技术抽取信息并用向量空间距离测度算法(VSM)对信息进行分类;使用启发式搜索等技术支持信息查询.信息收集、信息处理和信息查询3个模块既相互独立又相互关联.在实验室环境下实现的原型所得到的结果表明,研究设计的基于知识库的启发式智能搜索引擎不但提高了信息处理的效率和效果,还在很大程度上弥补了现有搜索系统的局限性.  相似文献   

14.
为了充分利用博客日志所提供的信息,提出了建立中文博客搜索引擎的基本思路.通过对博客的技术特点和博客搜索引擎工作原理的分析,设计了中文博客搜索引擎的系统结构.在此基础上,利用规则定义和正则表达式,结合真正简易聚合技术对传统的网络爬虫进行了改进,较好地解决了博客信息难以被收录的问题.利用真正简易聚合技术对博客信息进行格式化处理,加快了博客信息采集速度.通过对中文分词的扩展,利用Lucene.net全文搜索工具实现了一个中文博客搜索引擎.实验测试结果表明,采用的方案和技术是可行的.  相似文献   

15.
冯战申  吴亚桢 《计算机工程与设计》2005,26(9):2329-2331,2340
被称为下一代的网格体系结-OGSA,是建立在原有的"五层沙漏结构"的基础上,并结合最新的WebService技术提出的.OGSA的基本思想是以服务为中心.在阐述了其基本思想之后,通过一个智能搜索引擎的设计和实现,详细介绍了基于OGSA的服务设计流程,全面展示了OGSA的基本思想和工作机制.  相似文献   

16.
针对包含多媒体的网页链接特点,对Shark-Search主题搜索算法在搜索宽度、链接相似性判断以及待爬行链接选取策略上进行改进,采取“先搜索、后判断”的搜索过程。实验结果表明,改进的Shark-Search算法能够大大提高多媒体主题网页搜索的效率。  相似文献   

17.
Abstract: Content analysis of search engine user queries is an important task, since successful exploitation of the content of queries can result in the design of efficient information retrieval algorithms for more efficient search engines. Identification of topic changes within a user search session is a key issue in content analysis of search engine user queries. This study proposes an artificial neural network application in the area of search engine research to automatically identify topic changes in a user session by using statistical characteristics of queries, such as time intervals and query reformulation patterns. Sample data logs from the FAST and Excite search engines are selected to train the neural network and then the neural network is used to identify topic changes in the data log. As a result, almost all the performance measures yielded favourable results.  相似文献   

18.
基于WEB的面向主题搜索引擎的设计与实现   总被引:3,自引:2,他引:3  
针对目前通用搜索引擎所搜索到的结果过多、与主题相关性不强的情况,提出了面向主题的搜索引擎,并从系统结构方面将系统划分为特征提取、存取分析以及搜索控制等3个子系统,并给出了其具体的实现策略。  相似文献   

19.
网络信息的日益增加迫切需要适宜的检索工具,特别是进行专业信息的检索,需要体现专业词汇特点的搜索引擎。本文在对搜索引擎核心技术进行研究的基础上,提出了石油化工信息搜索引擎的设计方案,开发了网络机器人模块,实现了海量网页的自动获取;采用最短路径分词和正向最大匹配相结合的算法,实现了中文自动分词;开发了信息索引模块,实现了网页的批量索引和增量索引;开发了信息检索模块,提供布尔逻辑查询,实现摘要自动生成。通过系统集成,初步建立了体现石油化工专业特点的搜索引擎。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号