共查询到20条相似文献,搜索用时 125 毫秒
1.
2.
随着Internet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础上实现了一个基于Web的新闻采集系统,该系统可根据用户使用正则表达式编写的采集规则快速而精确的采集目标网页中的信息,保存在本地数据库中,用于内部使用或外网发布。 相似文献
3.
随着Intemet的飞速发展,Web已经发展成为一个巨大的信息资源库,但是目前Web数据大都以HTML形式出现,这使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息采集技术。该文对信息采集技术进行了探讨,并在此基础上实现了一个基于Web的新闻采集系统.该系统可根据用户使用正则袁达式编写的采集规则快速而精确的采集目标网页中的信息,保存在本地数据库中,用于内部使用或外网发布。 相似文献
4.
5.
根据国内外在信息采集领域的发展以及并行采集技术的研究,提出了一个基于多线程并行的Web信息采集结构模型,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集。 相似文献
6.
基于元搜索引擎的个性化Web信息采集 总被引:4,自引:0,他引:4
为了减少传统Web采集系统网络资源的耗费,并增强其个性化支持,结合用户兴趣向量模型,将元搜索引擎技术应用到Web信息采集领域中,设计一个基于元搜索引擎的个性化Web信息采集系统.该系统通过调用成员搜索引擎发现与用户兴趣相关的目标Web站点,通过爬虫程序采集目标站点上的Web页面内容.在发现兴趣站点方面更具有针对性,能有效减少爬虫的数量.重点研究了系统的体系结构、个性化Web采集的工作流程,最后给出了该系统的应用场合. 相似文献
7.
李娟 《电脑与微电子技术》2014,(5):77-80
当今万维网已成为一个庞大的资源库,其中包含海量的信息,同时也充斥大量垃圾信息。所以,如何有效地采集Web信息是当前研究的热点问题。通过研究Web信息采集技术和NekoHTML,介绍如何使用NekoHTML进行Web信息采集的方法。 相似文献
8.
9.
为了及时获取地震现场的震情与次生灾情信息,提出了一种新型的分布式采集系统.该系统由微处理器系统与地震烈度,GPS,有毒气体,以及火灾等信息采集模块构成.地震烈度模块和GPS模块一起,用以获取地震的时间、位置和强度等要素信息;有毒气体模块和火灾模块用于监测有毒气体泄漏和火灾.Modbus现场总线的引入,将各个信息采集模块与微处理器系统相连,构成了地震现场的分布式综合信息采集系统.实验结果表明:该综合采集系统能够及时获得地震现场震情和次生灾情信息,满足地震应急救援的信息需求. 相似文献
10.
提出了一个基于多线程并行的增量式Web信息采集结构模型,并加以实现,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集,在系统实现过程中,采取Java语言中最新的特性、独特的URL调度策略保证了各个线程时间的下载并行与互不相交,页面分析过程为各个线程源源不断地提供下载源,而指纹判别算法保证了并行采集过程中的同步,有效地去除了冗余。对该系统作了测试,实验证明,该系统能有效地提高信息采集性能。 相似文献
11.
12.
网络爬虫主要受到网络延迟和本地运行效率的限制,传统的基于多线程的网络爬虫架构主要为了消除网络延迟而没有考虑到本地运行效率。在高并发的条件下,多线程架构爬虫由于上下文切换开销增大而导致本地运行效率降低,同时使得网络利用率下降,如何能够在最大化利用网络资源的情况下减小系统本地开销是一个需要研究的问题。针对以上问题,本文提出基于协程的分布式网络爬虫框架来解决,从开销、资源利用率、网络利用率上对协程框架和多线程框架进行了分析,并基于协程实现了一个分布式网络爬虫。实验表明该框架无论从开销、资源利用率和网络利用率上相对于多线程框架有比较明显的优势。 相似文献
13.
14.
张亮 《电脑编程技巧与维护》2011,(20):94+103-94,103
介绍了网络爬虫的技术原理,给出了使用HTMLParser、HttpClient和Java实现简单网络爬虫的程序框架,对同类研究有一定的参考作用. 相似文献
15.
文章研究了在渗透测试中Web站点的信息抓取的问题.针对Web渗透测试对于信息抓取的全面性、高效性的需求,本文通过对Web站点进行研究分析,提出了基于导航链接的网络爬虫策略,并通过减少迭代次数对传统的MD5去重算法进行了改进,优化了URL去重的效率.通过实验验证表明,该爬虫策略的信息抓取覆盖率和网页下载效率均有所提高. 相似文献
16.
本文通过对中文网页采集流程、网络爬虫工作基本原理的分析,再结合彝文网页的特点,对彝文网页信息的采集技术进行了研究,通过聚焦网络爬虫来实现彝文网页信息的采集,并依此来建立一个内容全面的彝文网页信息资源库。 相似文献
17.
18.
19.
20.
针对传统高校网站信息分散不便于智能终端访问的问题,提出将网络爬虫技术和微信公众号开发技术相结合开发高校信息服务平台,利用网络爬虫技术对分散的网站信息进行自动采集清洗归整,并使用微信公众平台向高校师生即时推送。实验表明,该平台与传统的信息获取方式相比,运行效率更高,用户的服务体验更好。 相似文献