首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 639 毫秒
1.
在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。本文以开源的网络爬虫Heritrix为基础,分析其结构特征与工作原理并引入了多线程处理的改进办法,设计出一个主题爬虫,在单机环境下进行该爬虫性能的测试。实验结果表明该主题爬虫的查全率达到较高水准,为进一步研究开发搜索效率高的垂直搜索引擎打下坚实的基础。  相似文献   

2.
由于信息技术的不断提升,互联网技术的发展也是日新月异,越来越多的人们开始体验互联网所能带来的一些福利的同时,也参与到其中,成为网络信息的发布者和传播者。所以,传统搜索引擎的局限性也将体现出来,针对与这一问题,垂直搜索引擎在特定的领域进行了细化和延伸,以此来弥补传统搜索引擎所带来的不足,它利用主题爬虫技术对网络上某个或者多个主题的相关信息进行爬取、信息整合并且索引,这样就可以有效的采集页面信息,与此同时也节省了网络资源和系统资源。  相似文献   

3.
随着互联网爆炸式的发展,网络爬虫的重要性越来越重要.一个搜索引擎搜索结果的数量以及质量在一定程度上取决于网络爬虫爬取结果的质量,而如何能更好的组织这些爬虫也成了一件能影响爬虫效率的事情.随着在服务器上部署爬虫的增加,对一个能够有效管理爬虫监控系统的需求也就越来越紧迫.本文对爬虫监控系统的设计和实现将会给爬虫的管理带来很大的方便.  相似文献   

4.
本文提出采用Heritrix和Sphinx技术搭建购物搜索引擎,将国内大型B2C网站作为爬取信息来源,运用聚焦爬虫技术将目标定为抓取与用户某一特定体验主题内容相关的网页搜索引擎模型的探索与研究。  相似文献   

5.
张锦  罗钊 《信息通信》2014,(2):37-38
网络爬虫作为搜索引擎重要的组成部分,其抓取网页资源主题相关性的高低直接决定爬虫性能的好坏。文章在VSM模型的基础上引入关键词的同义、继承、属性等关系的相关词汇来增强VSM模型的语义,通过实验进行验证,改进能够取得较好的抓取效果。  相似文献   

6.
爬虫技术广泛应用于搜索引擎、大数据、人工智能等多种网络应用场景,而Python语言在开发网络爬虫中具有明显的优势.当前,互联网已经完全融入人们的生活,各类网络热点舆情信息瞬息万变,一个简单便捷的Python网络爬虫云平台可以满足用户在日新月异的网络变化中获取有价值的信息.  相似文献   

7.
网络爬虫排除标准,即Robots协议,也称为爬虫协议、机器人协议等。Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的,所有内容都包含在一个文本文件(robots.txt)中,是搜索引擎访问一个网站时要查看的第一个文件。搜索引擎的原理是通过一种爬虫(spider)程序,自动搜集互联网上的网页并获取相关信息。而鉴于网络安全与隐私的考虑,每个网站都会设置自己的Robots协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许,从而为搜素引擎指路,方便爬虫更好地抓取网站内容,同时也保护了中小网站的流量平衡,避免爬虫快速抓取给网站服务器带来过大压力。  相似文献   

8.
随着互联网的快速发展,互联网信息呈指数增长,对信息的收集变得越来越困难,如何从大量的数据中快速高效提取用户感兴趣的信息,是迫切需要解决的问题。网络爬虫技术能够自动收集信息并对网页数据进行抓取,提升了搜索引擎的能力。文章通过对网络爬虫技术的原理、Python钒钛词库爬虫进行设计与分析,实现信息的高效处理。  相似文献   

9.
北京优利华通科技公司针对内部网络安全与管理,运用独有的生物识别技术,开发出的SkyWing天翼指纹识别集成平台,是全球第一套针对网络安全量身定制的生物识别解决方案。它整合了先进的技术和设计思想,其系统开发组件化特色,能将指纹识别功能轻易地与原有信息系统整合,并具有多重身份认证、自动备援、平衡负载、生物识别智能搜索引擎等机制,可根据用户实际需求,定制不同的网络指纹识别解决方案,保证用户资料的正确性及完整性,防止资料在网络传输的过程中被窃取、篡改及伪造。一、SkyWing产品能力1. 防范外部黑客结合可靠的指纹采集机制。配…  相似文献   

10.
实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径,Deep Web爬虫是Deep Web数据源集成的关键组成部分,提出一种针对结构化Deep Web的聚焦爬虫爬行策略,通过对查询接口的特征分析来判断Deep Web数据源的主题相关性,同时,在评价链接重要性时,综合考虑了页面内容的主题相关性和链接的相关信息,实验证明该方法是有效的.  相似文献   

11.
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。  相似文献   

12.
Focused crawlers (also known as subject-oriented crawlers), as the core part of vertical search engine, collect topic-specific web pages as many as they can to form a subject-oriented corpus for the latter data analyzing or user querying. This paper demonstrates that the popular algorithms utilized at the process of focused web crawling, basically refer to webpage analyzing algorithms and crawling strategies (prioritize the uniform resource locator (URLs) in the queue). Advantages and disadvantages of three crawling strategies are shown in the first experiment, which indicates that the best-first search with an appropriate heuristics is a smart choice for topic-oriented crawling while the depth-first search is helpless in focused crawling. Besides, another experiment on comparison of improved ones (with a webpage analyzing algorithm added) is carried out to verify that crawling strategies alone are not quite efficient for focused crawling and in most cases their mutual efforts are taken into consideration. In light of the experiment results and recent researches, some points on the research tendency of focused crawler algorithms are suggested.  相似文献   

13.
近似镜像网页检测算法的研究与评价   总被引:7,自引:0,他引:7       下载免费PDF全文
王建勇  谢正茂  雷鸣  李晓明 《电子学报》2000,28(Z1):130-132,129
当前在WWW上有众多的近似镜像web页面,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一.为基于关键词匹配的搜索引擎系统提出了5种近似镜像网页检测算法,并利用“天网”系统对这5种算法进行了实际评测.另外还将它们与现有的方法进行了对比分析.本文所论述的近似镜像检测算法已成功地被用于消除“天网”系统的重复网页,同时也可广泛应用于数字化图书馆的搭建.  相似文献   

14.
网络爬虫是互联网运行服务的重要组成部分,并为整个互联网、企业内部网和大型门户网站提供搜索和索引.为解决现有爬虫方法在效率方面的问题,本文介绍了Nutch分布式爬虫工作流程及机制,通过分析Hadoop下的Nutch网络爬虫,在Nutch分布式爬虫的参数方面、Hadoop的I/O模型和Nutch分布式爬虫小文件问题三个方面做了相关优化.实验结果表明,优化后的网络爬虫能更有效的爬取网络资源,能在较大程度上提升网络爬虫效率.  相似文献   

15.
基于网页分块的个性化信息采集的研究与设计   总被引:8,自引:0,他引:8  
个性化Web信息采集是信息检索领域内一个将采集技术与过滤方法结合的新兴方向.也是信息处理技术中的一个研究热点。文章分析了个性化Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计了基于网页分块的个性化Web信息采集系统。  相似文献   

16.
本文描述了一个微博热点检测系统。管理者通过它可以快速了解正在发生的或是已发生的微博热点事件。系统采用调用微博API接口与改进爬虫程序相结合的方式获取网页数据;由于网络数据量巨大,为了提高效率,还采用了网页清理技术;重点介绍了话题活性模型的方法,系统可以根据时间坐标快速寻找热点话题,提高了热点话题发现的效率,大大降低了热点话题发现的时间复杂度。  相似文献   

17.
基于内容评价的爬虫搜索策略研究   总被引:1,自引:0,他引:1  
Internet上的不良信息日益增多成为危害严重的社会问题,对Internet进行监控成为一项迫切任务.而网络爬虫在信息搜索中起着明显的作用.为此,对链接价值的内容评价机制进行了研究,分析了影响链接价值的具体因素,并据此进行链接价值的计算以指导爬虫的搜索.实验结果表明,该方法有助于优先发现目标页面.  相似文献   

18.
黄皓凌  张凡 《电子设计工程》2011,19(23):34-37,40
基于开源搜索引擎Nutch,通过修改、调整和创新研制了文中介绍的6搜——一个专门搜索支持IPv6协议网站的专用IPv6搜索引擎。6搜的特点和创新点有:采集IPv6网页的速度在每秒100页以上;采集了54 195个IPv6网站,存储有2 000万IPv6网页,并且网页在不断更新和增加;有中文分词功能和自主创新的搜索网站功能。通过运行,6搜为用户提供了优质IPv6搜索服务;通过对6搜采集数据的分析,得到世界IPv6网站的分布。展现了IPv6网络的发展。  相似文献   

19.
Internet technologies are constantly evolving as well as the way people use them. Search engines help users to find higher and better relevant results to their searches. Cloud Computing is an evolution of the Internet services and provides a step further ecosystem that can be used to improve the search of more relevant results. Each search engine is based on different modules in order to retrieve the results expected by users using specific keywords. Social networks appear as a reliable Web technology that can directly support a content search. Several studies have been performed showing the growth of social networks in people lives. Using the cloud computing paradigm it is possible to propose a more scalable and efficient way to explore public information available on online social networks. This paper includes the analyses of several social networks services, available contents, cloud-crawlers, and information extraction. In order to collect relevant data from social networks, a social crawler on cloud is proposed. The new approach provides a cloud-based crawler for low-cost, effective, and personalized search models. Moreover, a new algorithm to rank Web documents is proposed and demonstrated. The proposed system is evaluated in comparison with the top Internet search engine, Google, its behavior is very promising, and it is ready for use.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号