首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
一个个性化的Web信息采集模型   总被引:7,自引:0,他引:7  
吴丽辉  王斌  张刚 《计算机工程》2005,31(22):86-88
介绍了个性化技术和个性化Web信息的采集技术,重点分析了个性化的Web信息采集模型,包括系统总体结构、用户兴趣的获取、个性化Web信息采集流程、个性化推荐的实现。最后对个性化Web信息采集与搜索引擎作了一个比较,分析了个性化Web信息采集的应用。  相似文献   

2.
随着Internet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础上实现了一个基于Web的新闻采集系统,该系统可根据用户使用正则表达式编写的采集规则快速而精确的采集目标网页中的信息,保存在本地数据库中,用于内部使用或外网发布。  相似文献   

3.
随着Intemet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础上实现了一个基于Web的新闻采集系统.该系统可根据用户使用正则袁达式编写的采集规则快速而精确的采集目标网页中的信息,保存在本地数据库中,用于内部使用或外网发布。  相似文献   

4.
基于主题的Web信息采集系统的设计与实现   总被引:13,自引:0,他引:13  
基于主题的Web信息采集是信息检索领域内一个新兴且有实用价值的方向,也是信息处理技术中的一个研究热点。文章分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。  相似文献   

5.
杨天奇  周晔 《计算机应用》2007,27(1):225-227
根据国内外在信息采集领域的发展以及并行采集技术的研究,提出了一个基于多线程并行的Web信息采集结构模型,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集。  相似文献   

6.
基于元搜索引擎的个性化Web信息采集   总被引:4,自引:0,他引:4  
为了减少传统Web采集系统网络资源的耗费,并增强其个性化支持,结合用户兴趣向量模型,将元搜索引擎技术应用到Web信息采集领域中,设计一个基于元搜索引擎的个性化Web信息采集系统.该系统通过调用成员搜索引擎发现与用户兴趣相关的目标Web站点,通过爬虫程序采集目标站点上的Web页面内容.在发现兴趣站点方面更具有针对性,能有效减少爬虫的数量.重点研究了系统的体系结构、个性化Web采集的工作流程,最后给出了该系统的应用场合.  相似文献   

7.
当今万维网已成为一个庞大的资源库,其中包含海量的信息,同时也充斥大量垃圾信息。所以,如何有效地采集Web信息是当前研究的热点问题。通过研究Web信息采集技术和NekoHTML,介绍如何使用NekoHTML进行Web信息采集的方法。  相似文献   

8.
一种通用Web信息采集系统的设计与实现   总被引:5,自引:0,他引:5  
吴丽辉  王斌  余智华 《计算机工程》2005,31(3):123-124,194
介绍了一种通用的Web信息采集系统,给出了系统总体结构,分析了信息采集器、采集控制服务器和信息发布服务器,讨论了系统实际的应用。实践证明,该系统能够对Internet信息进行自动采集,并对今后的应用提供充分的支持,具有良好的通用性。  相似文献   

9.
为了及时获取地震现场的震情与次生灾情信息,提出了一种新型的分布式采集系统.该系统由微处理器系统与地震烈度,GPS,有毒气体,以及火灾等信息采集模块构成.地震烈度模块和GPS模块一起,用以获取地震的时间、位置和强度等要素信息;有毒气体模块和火灾模块用于监测有毒气体泄漏和火灾.Modbus现场总线的引入,将各个信息采集模块与微处理器系统相连,构成了地震现场的分布式综合信息采集系统.实验结果表明:该综合采集系统能够及时获得地震现场震情和次生灾情信息,满足地震应急救援的信息需求.  相似文献   

10.
杨天奇  周晔 《计算机工程》2006,32(20):97-99
提出了一个基于多线程并行的增量式Web信息采集结构模型,并加以实现,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集,在系统实现过程中,采取Java语言中最新的特性、独特的URL调度策略保证了各个线程时间的下载并行与互不相交,页面分析过程为各个线程源源不断地提供下载源,而指纹判别算法保证了并行采集过程中的同步,有效地去除了冗余。对该系统作了测试,实验证明,该系统能有效地提高信息采集性能。  相似文献   

11.
董禹龙  杨连贺  马欣 《计算机科学》2018,45(Z6):428-432
针对当前分布式网络爬虫方法遇到的处理效率、扩展性、可靠性、任务分配和负载平衡等问题,提出了一种主动获取任务式的分布式网络爬虫方法。该方法在子机节点中加入分控模块,评估节点负载及运行状况,并主动向中控节点申请任务队列。在此基础上,结合动态双向优先级任务分配算法,设计了一种具有负载平衡、任务分级分配、节点异常敏捷识别、节点安全退出等特性的分布式网络爬虫模型。实际测试表明,该主动获取式的分布式网络爬虫方法可有效地利用通用平台建立大型分布式爬虫集群。  相似文献   

12.
网络爬虫主要受到网络延迟和本地运行效率的限制,传统的基于多线程的网络爬虫架构主要为了消除网络延迟而没有考虑到本地运行效率。在高并发的条件下,多线程架构爬虫由于上下文切换开销增大而导致本地运行效率降低,同时使得网络利用率下降,如何能够在最大化利用网络资源的情况下减小系统本地开销是一个需要研究的问题。针对以上问题,本文提出基于协程的分布式网络爬虫框架来解决,从开销、资源利用率、网络利用率上对协程框架和多线程框架进行了分析,并基于协程实现了一个分布式网络爬虫。实验表明该框架无论从开销、资源利用率和网络利用率上相对于多线程框架有比较明显的优势。  相似文献   

13.
从介绍Web挖掘与数据挖掘的差异入手, 分析Web挖掘中Web爬虫的必要性和现代Web挖掘技术的发展方向, 在深入了解Web爬虫的原理及其功能的基础上, 提出一个现代网站通用的挖掘模型, 并利用该模型设计一种网络爬虫. 经实例证明, 该爬虫能高效爬取更多的各种页面数据.  相似文献   

14.
张亮 《电脑编程技巧与维护》2011,(20):94+103-94,103
介绍了网络爬虫的技术原理,给出了使用HTMLParser、HttpClient和Java实现简单网络爬虫的程序框架,对同类研究有一定的参考作用.  相似文献   

15.
文章研究了在渗透测试中Web站点的信息抓取的问题.针对Web渗透测试对于信息抓取的全面性、高效性的需求,本文通过对Web站点进行研究分析,提出了基于导航链接的网络爬虫策略,并通过减少迭代次数对传统的MD5去重算法进行了改进,优化了URL去重的效率.通过实验验证表明,该爬虫策略的信息抓取覆盖率和网页下载效率均有所提高.  相似文献   

16.
本文通过对中文网页采集流程、网络爬虫工作基本原理的分析,再结合彝文网页的特点,对彝文网页信息的采集技术进行了研究,通过聚焦网络爬虫来实现彝文网页信息的采集,并依此来建立一个内容全面的彝文网页信息资源库。  相似文献   

17.
及时获取新增内容,是采集器的重要衡量指标。基于版块页-内容页架构设计的网络采集器通过定期重采入口的版块页,能够有效地快速识别新产生内容页面并进行扩展。然而获取内容的实时性与对网站访问的友好性存在一定的折中。传统的重采策略关注时效性,而忽略了对网站访问的友好性。该文提出了一种基于时间序列预测的改进重采策略兼顾时效性和友好性。实验表明,该方法可以在保证数据采集实时性的情况下,有效降低访问量,提升对网站访问的友好性。  相似文献   

18.
深度Web资源探测系统的研究与实现   总被引:1,自引:0,他引:1  
李涛  陈鹏  李哲 《微计算机信息》2007,23(33):185-187
本文介绍了深度Web的资源重要性和传统爬虫工作的原理。为了能够更好的利用传统爬虫获取深度Web资源和解决传统爬虫在工作中的不足,提出了一种任务可定制化的爬虫框架,并基于可定制化的任务,实现探测网络深度资源的功能。  相似文献   

19.
目前单机版的网络爬行器已无法在一个有效的时间范围内完成一次搜集整个Web的任务。该文采用分布式网络爬行器加以解决。在分布式设计中,主要考虑节点内部多个线程的并行和节点之间的分布式并行,包括分布式网络爬行器的策略选择和动态可配置性2个方面。实验结果显示站点散列法基本达到了分布式设计的目标,在追求负载平衡的同时将系统的通信和管理开销降到最低。  相似文献   

20.
针对传统高校网站信息分散不便于智能终端访问的问题,提出将网络爬虫技术和微信公众号开发技术相结合开发高校信息服务平台,利用网络爬虫技术对分散的网站信息进行自动采集清洗归整,并使用微信公众平台向高校师生即时推送。实验表明,该平台与传统的信息获取方式相比,运行效率更高,用户的服务体验更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号