首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
网络爬虫是当今网络实时更新和搜索引擎技术的共同产物。文中深入探讨了如何应用网络爬虫技术实现实时更新数据和搜索引擎技术。在对网络爬虫技术进行深入分析的基础上,给出了一种用网络爬虫技术实现局域网内服务器和客户端之间网络通信的解决方案。  相似文献   

2.
采用基于WINDOWS系统的内存缓冲环技术,结合多线程处理机制,将数据实时记录和非实时转存有效结合,在某仿真测试系统中实现了大容量仿真数据的实时存储。在大量节省内存资源的同时,优化了系统存取时间,有效保证了系统的实时性。  相似文献   

3.
主要介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,并通过扩展Heritrix实现了对网易手机频道信息的多线程抓取,为建立面向手机信息的垂直搜索引擎提供了信息源。  相似文献   

4.
随着互联网信息的爆炸式增长,搜索引擎和大数据等学科迫切需要一种高效、稳定、可扩展性强的爬虫架构来完成数据的采集和分析.本文借助于对等网络的思路,使用分布式哈希表作为节点间的数据交互的载体,同时针对网络爬虫自身的特点,对分布式哈希表的一种实现——Kademlia协议进行改进以满足分布式爬虫的需求.在此基础上设计并完善了具有可扩展性和容错性的分布式爬虫集群.在实际试验中,进行了单机多线程实验和分布式集群的实验,从系统性能角度和系统负载角度进行分析,实验结果表明了这种分布式集群方法的有效性.  相似文献   

5.
基于多线程与缓冲池的WebGIS数据传输   总被引:2,自引:2,他引:0       下载免费PDF全文
图像数据传输速率较低是WebGIS发展的主要障碍之一。针对地图分层、图像分割中的图像数据,采用多线程技术提高系统吞吐率、有效利用系统资源并管理多用户请求,通过缓冲池技术提高服务器主机性能,减少传输时的磁盘搜索次数。基于C#.net实现对WebGIS图像数据传输的优化,提高了数据传输效率。  相似文献   

6.
网络爬虫主要受到网络延迟和本地运行效率的限制,传统的基于多线程的网络爬虫架构主要为了消除网络延迟而没有考虑到本地运行效率。在高并发的条件下,多线程架构爬虫由于上下文切换开销增大而导致本地运行效率降低,同时使得网络利用率下降,如何能够在最大化利用网络资源的情况下减小系统本地开销是一个需要研究的问题。针对以上问题,本文提出基于协程的分布式网络爬虫框架来解决,从开销、资源利用率、网络利用率上对协程框架和多线程框架进行了分析,并基于协程实现了一个分布式网络爬虫。实验表明该框架无论从开销、资源利用率和网络利用率上相对于多线程框架有比较明显的优势。  相似文献   

7.
首先详细介绍了一种建构在PC Windows平台上的轻量级中文搜索引擎系统模型的总体设计,然后采用基于多线程技术的广度优先遍历法及最大匹配法和最小匹配法相结合的中文分词法等技术进行了各个主要功能模块的具体设计和实现,对模型进行了基于多线程的网络爬虫、用户接口等测试。测试实验结果表明:构建并实现的轻量级中文搜索引擎系统模型能较好地实现一个简单中文搜索引擎所具有的基本功能,系统界面简单实用,具有较高的资源检索率并能够保证检索结果的准确性。  相似文献   

8.
网络爬虫的主要作用是获取互联网上的信息。我们在浏览网页时候所希望获取的信息都可以使用网络爬虫来抓取实现;网络爬虫从互联网上源源不断的抓取海量信息,搜索引擎结果中的信息都是来源于此。本文对基于C#开发的网络爬虫搜索引擎进行了详细的阐述。  相似文献   

9.
网络爬虫是搜索引擎的一个基本组件,网络爬虫抓取页面的效率直接影响搜索引擎提供的服务质量。除了可以通过改进网络爬虫的爬行策略来提高网络爬虫效率之外,也可以通过优化网络爬虫程序某方面的设计来消除特定的效率瓶颈。通过对网络爬虫结构和实际运行数据的分析,针对爬虫的DNS解析瓶颈,设计了一种带缓存异步域名解析器模型,并通过实验和一般DNS解析器模型进行了比较,实验结果证明这种模型对于减少程序等待解析域名的这一操作时间十分有效,显然也能够提高爬虫的整体效率。  相似文献   

10.
搜索引擎中网络爬虫是一个重要组成部分,在行业搜索引擎中数据的查全查准得依靠网络爬虫对海量数据的抓取作用,网络爬虫如何在行业中发挥重要作用抓取出高效数据呢?将以烟草行业为例,针对网络爬虫的各个策略如深度优先策略、广度优先策略等策略分析其在行业搜索引擎中的应用。  相似文献   

11.
张南平  陈小倩 《微机发展》2005,15(8):88-91,150
ASP.NET提供两种主要形式的缓存:输出缓存(页面级和用户控件级)和数据缓存。输出缓存的优点是非常易于实现。在大多数情况下,使用这种缓存就足够了。而数据缓存则提供了额外的灵活性(实际上是相当大的灵活性),可在应用程序的每一层利用缓存。文中全面介绍了这两种缓存技术在系统各层中的应用。同时对于引擎无法控制的、潜在的性能优化点,例如代码逻辑不优化等,也介绍了相应的优化技巧。  相似文献   

12.
一种高效点播流媒体服务器的设计与实现   总被引:1,自引:0,他引:1  
流媒体网络传输的数据量大,并且用户访问流媒体服务器具有随机性和不确定性,因此流媒体服务器系统结构的设计必须合理,CPU、内存、I/O总线等各种资源的分配要合理,以便高效地为客户服务。本文通过缓冲区、线程池等技术对这几个方面加以分析、改进,并通过仿真实验Web证明了这些改进完全适合构建一个中等规模的点播流媒体服务器。  相似文献   

13.
夏鑫  高品  陈康  姜进磊 《计算机应用研究》2020,37(9):2586-2590,2599
在基于神经网络的图表示算法中,当节点属性维度过高、图的规模过大时,从内存到显存的数据传输会成为训练性能的瓶颈。针对这类问题,该方法将图划分算法应用于图表示学习中,降低了内存访问的I/O开销。该方法根据图节点的度数,将图划分成若干个块,使用显存缓存池存储若干个特征矩阵块。每一轮训练,使用缓存池中的特征矩阵块,以此来减少内存到显存的数据拷贝。针对这一思想,该方法使用基于图划分的抽样算法,设计显存的缓存池来降低内存的访问,运用多级负采样算法,降低训练中负样本采样的时间复杂度。在多个数据集上,与现有方法对比发现,该方法的下游机器学习准确率与原算法基本一致,训练效率可以提高2~ 7倍。实验结果表明,基于图划分的图表示学习能高效训练模型,同时保证节点表示向量的测试效果。今后的课题可以使用严谨的理论证明,阐明图划分模型与原模型的理论误差。  相似文献   

14.
刘志  张晶 《计算机工程》2014,(6):5-7,12
针对传统数据库缓冲池脏数据回写磁盘策略实时性与安全性差的问题,提出基于Hash算法与先入先出(FIFO)双向链表的数据库缓冲池脏数据回写磁盘实时调优策略。利用基于负载的调优策略创建多个内存FIFO队列链表,通过Hash算法将数据库缓冲区内的脏数据块按最后修改时间随机分配到不同队列负载中,实现FIFO队列链表的负载均衡,并利用全局时序约束将链表队列中的脏数据块分批回写磁盘,以解决传统脏数据回写磁盘策略系统资源消耗大与宕机后数据丢失风险高的问题。实验结果证明,该策略能提高脏数据回写的实时性及安全性,降低数据丢失率。  相似文献   

15.
为避免创建缓冲区过程中必须指定大小和多次释放而导致可能的内存泄露和代码崩溃的弊端,提出一种自适应的嵌入式协议栈的缓冲区管理机制AutoBuf。它是基于抽象缓冲区接口而设计的,具有自适应性,支持动态内存的自动分配与回收,同时实现了嵌入式TCP/IP协议栈各层之间的零拷贝通信。在基于研究平台S3C44B0X的Web server网络数据监控系统上的测试结果表明,该缓冲区的设计满足嵌入式系统网络通信的应用需求,是一种高效、可靠的缓冲区管理机制。  相似文献   

16.
基于磁盘数据库系统的瓶颈主要在磁盘I/O,通常采用缓冲池的设计,将读到的数据页先放入到内存缓冲池后再进行操作。因此,缓存池的大小直接决定了数据库的性能。通过研究基于闪存固态硬盘的特性,提出了一种基于闪存固态硬盘的辅助缓冲池设计。最后,通过修改开源数据库MySQL InnoDB存储引擎,并通过TPC-C实验对比分析了启用辅助缓冲池后数据库的性能可有100%-320%的提高。  相似文献   

17.
短消息处理模块是短消息服务器的核心部分,它处理和传输来自应用实体方和短消息网关方的消息,短消息处理模块中运用了发送消息缓冲池这一关键技术,给出了缓冲池的详细结构、构造缓冲池的类的关系图以及缓冲池内处理消息的机制。通过应用发送消息缓冲池,提高了短消息处理模块的处理能力和负载能力,并从整体上提高了系统的性能。  相似文献   

18.
短消息处理模块是短消息服务器的核心部分,它处理和传输来自应用实体方和短消息网关方的消息.短消息处理模块中运用了发送消息缓冲池这一关键技术,给出了缓冲池的详细结构、构造缓冲池的类的关系图以及缓冲池内处理消息的机制。通过应用发送消息缓冲池,提高了短消息处理模块的处理能力和负载能力。并从整体上提高了系统的性能。  相似文献   

19.
基于内存池的空间数据调度算法   总被引:4,自引:0,他引:4       下载免费PDF全文
计算机处理海量空间数据时,内外存之间数据的频繁交互导致内存占用高、处理效率低。使用内存池方式调度空间数据可以提高计算机效率。在多种特定地图使用模式下,不同的内存池页面置换算法能有效降低操作过程中的内外存交互,提高空间数据调度效率。实验表明,该算法为内存容量有限的嵌入式设备上的GIS提出了高效处理空间数据的方案。  相似文献   

20.
谢金晶  张艺濒 《微机发展》2007,17(1):133-135
对线程、内存、数据连接等宝贵资源的低效使用已成为B/S体系结构应用软件的主要性能瓶颈。而池技术正是解决这一问题的有效途径。介绍了基于池技术扩展而来的线程池、实例池、连接池的基本原理,阐述了如何将其运用于N层构架体系中相应层,优化整体的系统性能,并对存在的问题提出了改进算法。最后针对现有的池中突发的资源管理调度方法的不足,提出了基于最高效益的调度算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号