首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
传统的聚焦爬虫在主题未知或者缺少相应训练集的情况下无法完成主题爬行。为让聚焦爬虫具有更好的主题适应性,提出基于聚类算法的自适应主题模型,指导聚焦爬虫在只有少量相同主题(主题未知)初始url的情况下完成主题爬行。通过对初始页面聚类得到主题中心向量,寻找相关网页更新主题中心位置;基于best-first策略实现url排序;基于该模型实现用户定制主题聚焦爬虫。通过对比实验验证了使用该模型的爬虫具有较高的收获比(havest rate)。  相似文献   

2.
在现有多种主题爬虫的基础上,提出了一种基于概率模型的主题爬虫。它综合抓取过程中获得的多方面的特征信息来进行分析,并运用概率模型计算每个URL的优先值,从而对URL进行过滤和排序。基于概率模型的主题爬虫解决了大多数爬虫抓取策略单一这个缺陷,它与以往主题爬虫的不同之处是除了使用主题相关度评价指标外,还使用了历史评价指标和网页质量评价指标,较好地解决了"主题漂移"和"隧道穿越"问题,同时保证了资源的质量。最后通过多组实验验证了其在主题网页召回率和平均主题相关度上的优越性。  相似文献   

3.
本文在基于结构化P2P路由算法Kademlia的基础上提出了一种新的支持多关键字搜索的DHT(Distributed Hash Table)机制:kNN-Kad(K Neareast Neighbor Kademlia),它使Kademlia网络可以高效的进行主题搜索和多关键字的搜索.kNNKad机制包括资源发布算法和多关键字查找算法,通过仿真,分析了搜索时间复杂度、通信量以及维护代价,其结果表明该机制相对于现有算法具有更高的综合性能.  相似文献   

4.
基于语义分析的主题信息采集系统的设计与实现   总被引:5,自引:0,他引:5  
设计并实现了一个基于语义分析的主题信息采集系统(SAFWC),提出一种链接价值预测算法(SPageRank)。该算法从语义的角度出发,结合“知网”,通过对扩展元数据进行主题相关性判定来选择、预测与主题相关的URL。实验结果表明,该系统具有较高的采集效率及精度。  相似文献   

5.
作为最具有代表性的DHT网络,Mainline DHT网络凭借其用户数量庞大、分布地域广、运行稳定,正成为国际上结构化P2P网络研究和应用的热点。但由于Mainline DHT的异构性和复杂性,使得很难对其开展行之有效的管控手段。以面向有效管控的Mainline DHT网络测量分析为目标,在深刻理解Mainline DHT网络文件查询过程等相关细节的基础上,提出并设计了基于伪装节点发布、主动扩散和被动监听策略相结合的高效采集方法,通过获取节点分布、热门种子文件分布、客户端类型和端口分布等实际数据,测量并分析了Mainline DHT的网络性质和流量特征,为特定目标、区域管控等精细化、细粒度管控手段提供数据支撑及指导依据。  相似文献   

6.
基于一个具有良好扩展性与通用性的DHT文件存储和共享系统,结合传统的数据复制技术,在充分考虑P2P网络的异构性前提下,设计了一种自组织的文档存储策略和一种结合节点综合性能的自适应的最多请求者与最近最少访问相结合的复制策略。这两种策略结合使用,能够保证文档存储的可靠性、共享信息的高效可用性,并可自动调整网络的负载平衡状况,保证网络的可扩展性与稳定性。  相似文献   

7.
在文件共享、流媒体和协作计算等P2P应用模型中,节点间采用单播通信并构建出对应的覆盖网络.由于覆盖网络通常建立在已有的底层网络之上,节点随机加入系统将导致上下层网络拓扑不匹配,不仅增加了节点间通信延时而且给底层网络带来较大的带宽压力.当前的拓扑匹配算法尚存在可扩展性低、节点聚集时延长等问题.在网络坐标算法和DHT算法基础之上,提出一种分布式的拓扑感知节点聚集算法TANRA,利用等距同心圆簇对节点二维网络坐标平面进行等面积划分,并根据节点所处区域进行多层命名空间中区间的一一映射.由于保留了节点之间的邻近关系,从而可使用DHT基本的“发布”和“搜索”原语进行相邻节点聚集.仿真结果表明,TANRA算法在大规模节点数时能有效保证网络拓扑匹配,并且具有较低的加入延时.  相似文献   

8.
1 Introduction and related work In recent years, peer-to-peer computing has attracted significant attention from both industry field and academic field[1-3]. The core component of many proposed peer-to- peer systems is the distributed hash table (DHT) schemes[4,5] that use a hash table-like interface to publish and look up data objects. Many proposed DHT schemes[6-15] are based on some traditional interconnection to- pology: Chord[6], Tapestry[7,8], Pastry[9] are based on hypercube topolog…  相似文献   

9.
一个P2P IPTV多协议爬行器——TVCrawler   总被引:2,自引:0,他引:2  
P2P IPTV网络测量是研究P2P IPTV行为和特征的重要手段,不仅有利于设计出更符合真实网络环境的系统或协议,也是实现P2P IPTV监测、引导和控制等方面的重要依据和基础。爬行器是P2P IPTV网络的一种主动测量技术,也是目前P2P IPTV测量的主要方式之一。提出了一个P2P IPTV多协议爬行器——TVCrawler,能够对PPLive、PPStream和UUSee三个系统的直播频道进行测量。TVCrawler主要具有三个特点:1)采用基于反馈的引导节点集构造机制;2)采用主从结构,并行爬行获取拓扑数据;3)采用基于拓扑增长系数的自适应爬行时长控制。实验表明,TVCrawler的爬行测量速度达到20~100节点/秒和130~500边/秒。  相似文献   

10.
设计具有更优的"度-直径"折衷关系,并能更好地适应动态、异构的Internet环境的DHT方法是结构化P2P技术研究的重点.提出一种容错、非对称的DHT方法:A-DHT.A-DHT根据接入延迟、带宽和用户行为把节点分成胖节点和瘦节点两类,并以Hyper-de Bruijn图为基础构建非对称的网络拓扑.A-DHT充分利用胖节点的消息转发能力实现了更优的、"平均度-直径"折中.同时,A-DHT又利用瘦节的冗余边得到了比各种基于字母表的DHT方法更好的容错性.介绍了A-DHT的静态拓扑结构、路由算法以及基于A-DHT构建P2P网络的若干算法.理论分析和实验证明,A-DHT在低网络负载条件下能够有效降低路径长度和延迟,在高网络负载条件下能够有效避免胖节点的过载,同时具有较好的容错特性.  相似文献   

11.
本文首先分析了JXTA的资源定位方式,在此基础上提出了一种基于三层P2P架构的二维DHT资源定位方式,并详细建议了在该方式下对DHT迁移的抑制方法。  相似文献   

12.
一种新的面向主题的爬行算法*   总被引:1,自引:0,他引:1  
虽然通用网络爬行器已经给人们提供了极大的便利,但由于它的综合性不具备面向专业的特点,在准确性和速度等方面存在不足;面向主题的爬行器能弥补这些不足。主要研究面向主题网络爬行器两个方面的问题,即如何充分地定义主题和有效地排序爬行器待下载链接队列中的链接,使得只需访问很少的不相关页面就能够得到很多相关的页面链接。结合网页的半结构化信息特征,提出了一种新的基于内容的爬行策略,实验结果显示是一种寻找主题相关页面很有效的方法。  相似文献   

13.
由于通用搜索引擎的综合性,不具备面向专业的特点,所以在准确性和速度等方面存在不足。因此针对Blog这个全新领域,提出了一个面向Blog的网络爬行器算法,为Blog语料搜集以及相关Blog研究提供了方便。  相似文献   

14.
单总线传感器DHT11在温湿度测控中的应用   总被引:3,自引:0,他引:3  
新型单总线数字温湿度传感器DHT11具有体积小巧、接口简单、响应速度快、性价比高等特点。文章简要介绍了单总线概念,阐述了DHT11的基本原理和控制使用方法,以及其在仓库温湿度测控系统中的应用。DHT11的诸多优点,使其在自动控制和家电消费品领域中拥有较高的应用价值。  相似文献   

15.
DHT负载均衡的必要性   总被引:1,自引:0,他引:1  
在分布式哈希表(DHT)中,节点ID通常随机选择,但这并不意味着DHT是负载均衡的.仿真结果表明,Chord网络中的负载是不均衡的.在总结对该问题相关工作的基础上,理论上证明了DHT算法本质上的不均衡性,并精确给出节点负载不均衡性的上界范围,仿真验证了分析结论.  相似文献   

16.
传统的基于单一价值评价的网络蜘蛛搜索策略存在主题漂移,不能有效利用链接结构信息,容易迷失方向,过于依赖关键词集等不足。提出一种基于动力粒子群算法的启发式网络蜘蛛搜索算法,新算法充分考虑W eb站点信息资源分布的特点,给合了两类评价标准的优势,根据实际的搜索情况,在线调整两种价值的权重,具有自适应性。实验表明,新算法具有较高的查全率和查准率,能较好地解决现存问题。  相似文献   

17.
为确保100 t伸缩臂履带式起重机臂架结构设计的合理性,采用壳单元建立该起重机的有限元模型,用ANSYS计算臂架结构应力和应变,得到臂架的应力和应变分布,验证臂架的强度和稳定性.在起重机性能满足要求的情况下,以减轻结构自重为优化目标,以截面尺寸为优化设计变量,用ANSYS对臂架进行优化设计.优化设计后的臂架满足设计规范,臂架截面尺寸缩小、自重降低,整机性能得到提高.  相似文献   

18.
飞速发展的网络给综合性的采集系统带来了巨大的挑战,由此小型的专题信息采集已成为近年的研究热点。文章介绍了专题的Web信息采集系统的基本原理,分析了专题页面在网络中的分布特性,提出了一种通过提供高质量种子集的方法来改善采集器性能的方法,节约了硬件和网络资源,使更新更加容易。  相似文献   

19.
基于改进DHT算法的分布式资源发现模型的研究*   总被引:1,自引:1,他引:0  
为了解决大型分布式系统由集中管理导致的扩展性和鲁棒性差的问题,利用改进的结构化对等网组织分布式计算资源,构造一个SRDM(scalable resource discovery model,可扩展资源发现模型)。SRDM将逻辑空间中的节点分为主机节点和资源节点。主机节点对应分布式环境中的计算节点,用于存储peer关联信息,通过相容性hash映射到逻辑空间上;资源节点对应分布式环境中资源属性信息,其与逻辑空间的映射通过分段hash再合并的方法得到。通过对属性值采用位置保留hash方法,使改进后的DHT算法支持有效的资源节点范围查询和多属性范围查询。最后通过实验证明,基于改进DHT算法的资源发现方法比集中式的方法有更好的扩展性,更适用于大规模分布式系统下的资源发现。  相似文献   

20.
传统的以BT Tracker作为服务器的BT下载已走到尽头,基于DHT网络和PEX技术的磁力下载逐渐成为新一代的BT下载方式。本文重点探讨新一代P2P技术。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号