首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
无论是通用搜索还是垂直搜索,其关键的核心技术之一就是网络爬虫的设计.本文结合HTMLParser信息提取方法,对生活类垂直搜索引擎中网络爬虫进行了详细研究.通过深入分析生活类网站网址的树形结构的构架,开发了收集种子页面URL的模拟搜索器,并基于HTMLParser的信息提取方法,从种子页面中提取出与生活类主题相关的目标URL.经实验测试证明该爬虫的爬准率达93.552%,爬全率达96.720%,表明该网络爬虫是有效的,达到中等规模的垂直搜索企业级应用的要求.  相似文献   

2.
RL_Spider:一种自主垂直搜索引擎网络爬虫   总被引:1,自引:0,他引:1  
在分析相关spider技术的基础上,提出了将强化学习技术应用到垂直搜索引擎的可控网络爬虫方法。该方法通过强化学习技术得到一些控制经验信息,根据这些信息来预测较远的回报,按照某一主题进行搜索,以使累积返回的回报值最大。将得到的网页存储、索引,用户通过搜索引擎的搜索接口,就可以得到最佳的搜索结果。对多个网站进行主题爬虫搜索,实验结果表明,该方法对于网络的查全率和查准率都具有较大的提高。  相似文献   

3.
聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep web)数据的关键一步.介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep web数据集成的质量和效率.  相似文献   

4.
目前互联网上的信息正在飞速的增长,人们主要依靠搜索引擎查找信息,随着专业化不断加强,垂直搜索引擎成为人们新的工具,但构建专业化搜索引擎过程比较复杂.为了解决垂直搜索引擎中主题爬虫配置不灵活的问题,采用在爬虫上集成规则引擎的方法,通过规则库来控制爬虫运行,并且使用可扩展度较高的开源爬虫项目Heritrix和开源规则引擎项目Drools,构建配置方便、灵活度高的个性化爬虫,从而将原先主题爬虫的设置从紧耦合转变成了松耦合,降低了用户配置难度.  相似文献   

5.
爬虫是搜索引擎的一个重要组成部分,如何有效地保证本地镜像的新鲜度成为爬虫研究的一个热点问题。根据网页更新符合泊松过程的特点,提出一种及时同步本地数据库与远程网站的方法。通过保存有关网页更新情况的历史记录,统计出各个网页的更新频率,并以此确定爬虫对该网页的访问频率。通过实验证明基于泊松过程的爬虫调度策略的可行性。  相似文献   

6.
随着Internet的快速发展,越来越多的用户提出与主题或者领域相关的查询需求,而传统通用搜索引擎已经无法满足这一需求。为了克服传统通用搜索引擎的不足,研究者提出面向主题的爬虫。首先给出主题网络爬虫的定义,接着提出主题爬虫的三个关键技术:抓取目标、网页搜索策略和网页主题相关性算法,最后给出主题爬虫在今后的一些研究方向。  相似文献   

7.
深层网站Ajax页面数据采集研究综述   总被引:1,自引:0,他引:1  
如果能够提高网络爬虫采集Ajax网页数据的能力, 必然会提高搜索引擎的覆盖率和准确率。因此, 深层网站Ajax页面数据采集成为当前网络爬虫技术研究的热点之一。从深层网站Ajax页面数据采集的研究目标、近年来国内外采取的研究方法和取得的成果(研究领域、采集流程、支撑技术)、未来的研究方向三个方面进行了综述。  相似文献   

8.
蜘蛛攻击是利用搜索引擎的爬虫机器人——蜘蛛的爬行方式来实现提升自己网站访问排名的一种黑帽SEO手段。蜘蛛攻击达到一定强度便会形成拒绝服务攻击。本文作者以单位遇到的实例为大家详细描述了本次事件的分析结果以及应对SEO蜘蛛攻击的方法,一起来学习一下吧。  相似文献   

9.
搜索引擎中网络爬虫是一个重要组成部分,在行业搜索引擎中数据的查全查准得依靠网络爬虫对海量数据的抓取作用,网络爬虫如何在行业中发挥重要作用抓取出高效数据呢?将以烟草行业为例,针对网络爬虫的各个策略如深度优先策略、广度优先策略等策略分析其在行业搜索引擎中的应用。  相似文献   

10.
基于改进网络爬虫技术的SQL注入漏洞检测*   总被引:5,自引:1,他引:4  
网络爬虫在搜索引擎领域广泛使用,SQL注入漏洞检测属于Web服务和数据库安全的范畴。为了提高网站的安全性,及时、有效地发现网站存在的SQL注入漏洞,改进了现有的网络爬虫技术,应用到对网站SQL注入漏洞的检测中,丰富了检测的手段,降低了检测的漏报率。最后通过实验证明了该技术的可行性。  相似文献   

11.
基于完备回溯树的语义Web服务自动组合   总被引:2,自引:0,他引:2  
李瑞宁  周竹荣 《计算机应用》2008,28(6):1427-1430
基于语义的Web服务自动组合方法具有较高的效率及自动化程度,能更好地解决复杂的服务组合问题。提出一种基于完备回溯树的语义Web服务自动组合方法(CBT_ASWSC),该方法为Web服务引入语义以实现对象间的语义转化并将搜索空间受限于完备回溯树中,在加快Web服务组合效率的同时提高了Web服务组合的成功率。  相似文献   

12.
领域相关的Web网站抓取方法   总被引:3,自引:0,他引:3  
本文提出了一种抓取领域相关的Web站点的方法,可以在较小的代价下准确地收集用户所关心领域内的网站。这种方法主要改进了传统的聚焦爬虫(Focused Crawler)技术,首先利用Meta-Search技术来改进传统Crawler的通过链接分析来抓取网页的方法,而后利用启发式搜索大大降低了搜索代价,通过引入一种评价领域相关性的打分方法,迭到了较好的准确率。本文详细地描述了上述算法并通过详细的实验验证了算法的效率和效果。  相似文献   

13.
Deep Web数据源聚焦爬虫   总被引:2,自引:0,他引:2       下载免费PDF全文
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对Deep Web数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。  相似文献   

14.
随着Web数据库的广泛应用,Web正在不断“深化”。传统搜索引擎只能检索浅层网络,却不能直接索引到深层网络(Deep Web)的资源。为了有效地利用Deep Web资源,必须要对Deep Web数据进行大规模集成。其中,数据源发现是整合Deep Web资源的首要工作,能否高效地发现Deep Web站点是Deep Web数据获取的关键。提出了一种基于传统搜索引擎的Deep Web数据源发现方法,该方法通过分析返回结果来扩展查询,从而进一步提高了数据源发现的效率。实验证明该方法能得到较好的结果。  相似文献   

15.
针对现有Deep Web查询接口判定方法误判较多、无法有效区分搜索引擎类接口的不足,提出了基于决策树和链接相似的Deep Web查询接口判定方法。该方法利用信息增益率选取重要属性,并构建决策树对接口表单进行预判定,识别特征较为明显的接口;然后利用基于链接相似的判定方法对未识别出的接口进行二次判定,准确识别真正查询接口,排除搜索引擎类接口。结果表明,该方法能有效区分搜索引擎类接口,提高了分类的准确率和查全率。  相似文献   

16.
Web search evaluation is the process of measuring the effectiveness of a Web search system. Such an evaluation helps in identifying the most effective one and helps the users to find the required information with less effort. Web search systems have been evaluated in many different ways in the last 15 years. In this paper, we review some of the efforts made for the evaluation of Web search systems. We discuss these evaluation studies by classifying them into eight different categories. As the size and content of Web is changing rapidly, and hence, the Web search techniques, we mention the necessity of an automatic evaluation methodology. But, at the same time, we emphasize that the significance of user based evaluation can not be neglected. Finally, we conclude that an automatic evaluation method that models users’ feedback based evaluation is required for the effective and realistic evaluation of Web search systems.  相似文献   

17.
针对搜索引擎查询结果缓存与预取问题,该文提出了一种基于查询特性的搜索引擎查询结果缓存与预取方法,该方法包括用来指导预取的查询结果页码预测模型和缓存与预取算法框架,用于提高搜索引擎系统性能。通过对国内某著名中文商业搜索引擎的某段时间的用户查询日志分析得出,用户对不同查询返回的查询结果所浏览的页数具有显著的非均衡性,结合该特性设计查询结果页码预测模型来进行预取和分区缓存。在该搜索引擎两个月的大规模真实用户查询日志上的实验结果表明,与传统的方法相比,该方法可以获得3.5%~8.45%的缓存命中率提升。  相似文献   

18.
传统的基于网页方式的搜索引擎服务不能很好地满足用户个性化的需求,搜索引擎Web API概念的提出较好地解决了这一问题。文中讨论了非商业网站如何使用搜索引擎Web APIs实现网站搜索服务。为避免搜索引擎Web APIs在搜索次数上的限制,给出一种不使用Search APIs而直接通过模拟请求方式得到搜索结果的新方法。  相似文献   

19.
文章分析了传统搜索引擎的缺点,提出了一种基于网页自动分类的分类查询搜索引擎新模型,重点阐述了利用粗糙集进行文本分类的方法,提出了一种基于特征矩阵的决策表约简算法,并以此实现了网页自动分类器。  相似文献   

20.
Keyword-based Web search is a widely used approach for locating information on the Web. However, Web users usually suffer from the difficulties of organizing and formulating appropriate input queries due to the lack of sufficient domain knowledge, which greatly affects the search performance. An effective tool to meet the information needs of a search engine user is to suggest Web queries that are topically related to their initial inquiry. Accurately computing query-to-query similarity scores is a key to improve the quality of these suggestions. Because of the short lengths of queries, traditional pseudo-relevance or implicit-relevance based approaches expand the expression of the queries for the similarity computation. They explicitly use a search engine as a complementary source and directly extract additional features (such as terms or URLs) from the top-listed or clicked search results. In this paper, we propose a novel approach by utilizing the hidden topic as an expandable feature. This has two steps. In the offline model-learning step, a hidden topic model is trained, and for each candidate query, its posterior distribution over the hidden topic space is determined to re-express the query instead of the lexical expression. In the online query suggestion step, after inferring the topic distribution for an input query in a similar way, we then calculate the similarity between candidate queries and the input query in terms of their corresponding topic distributions; and produce a suggestion list of candidate queries based on the similarity scores. Our experimental results on two real data sets show that the hidden topic based suggestion is much more efficient than the traditional term or URL based approach, and is effective in finding topically related queries for suggestion.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号