首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
为了适应Internet信息量的快速增长,搜索引擎采用分布式技术搜集信息。采用分布式搜集技术的具体应用中主要存在两个关键问题:URL匹配和系统负载平衡。针对现有的几种分布式信息搜集系统的设计中存在的一些不足,提出了利用URL分级散列进行定位和匹配的方法。根据中文网络信息的特点,分析了几个对字符串散列较好的函数,设计了两种URL散列函数,应用于分布式中文信息搜集系统中。实验表明,系统在减少URL匹配的资源消耗和提高系统负载的均衡性方面有很好的效果。  相似文献   

2.
两种对URL的散列效果很好的函数   总被引:32,自引:2,他引:32  
李晓明  凤旺森 《软件学报》2004,15(2):179-184
在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列操作.针对两种典型的应用场合,即Web结构分析中的信息查询和并行搜索引擎中的负载平衡,基于一个含有2000多万个URL的序列,进行了大规模的实验评测.说明在许多文献中推荐的对字符串散列效果很好的ELFhash函数对URL的散列效果并不好,同时推荐了两种对URL散列效果很好的函数.  相似文献   

3.
研究了分布式体系结构下的并行Crawler采集模型,分析了各组件的功能及各Cmwler在并行搜索时,为保证系统的负载均衡而应遵循的基本规则,并提出了一种基于散列(hash)的URL的调度算法。  相似文献   

4.
Web集群服务的请求分配算法大多使用Hash方法对请求URL进行散列,并按一定规则对请求内容进行负载均衡调度.提出了一种基于URL词典排序及全部URL按其词典序列分为k*n个集合的URLALLOC算法.该算法通过对URL进行词典序排序并将全部URL按其词典序列分为k*n个集合,依访问流量排序及分段互补等一系列方法将Web负载尽可能均匀地分布到多个后端服务器中.仿真实验结果表明:URLALLOC算法比现有的URL散列方法具有更好的负载均衡能力.  相似文献   

5.
数据网格中高效的分布式存储策略   总被引:1,自引:0,他引:1  
在当前数据网格软件中间件系统的基础上,提出一种基于信息散列算法的分布式存储策略。采用信息散列算法对数据文件进行散列处理,将其分布存储于数据网格系统的多个存储服务器。理论分析和实验模拟结果证明,与传统的数据复制技术相比,该策略具有较高的可靠性和并行访问性能。  相似文献   

6.
在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列(hashing)操作.本文提出了一个针对URL数据集合的均匀哈希函数,它是ELFhash函数的变型.通过对天网搜索引擎采集的1亿多个URL集合的抽样实验表明:它能有效使得URL集在哈希表中均匀散布.并通过与MD5和SHA-1的对比,认为它是实用的.最后,指出了进一步的研究方向.  相似文献   

7.
针对群智感知网络数据融合传输过程中隐私泄露、信息不完整、数据窜改等安全问题,提出了一种基于分布式压缩感知和散列函数的数据融合隐私保护算法。首先,采用分布式压缩感知方法对感知数据进行稀疏观测,去除冗余数据;其次,利用单向散列函数求取感知数据观测值的散列值,将其和不受限的伪装数据一起填充到感知数据观测值中,达到隐藏真实感知数据的目的;最后,在汇聚节点提取伪装数据之后,再次获取感知数据的散列值并验证数据的完整性。仿真结果表明,该算法兼顾了数据的机密性和完整性保护,同时大大降低了通信开销,在实际应用中具有很强的适用性和可扩展性。  相似文献   

8.
一种快速的基于URL的垃圾邮件过滤系统   总被引:2,自引:0,他引:2  
垃圾邮件是当前Internet上关注一个焦点问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮件过滤技术面临着新的挑战。针对目前垃圾邮件大都含有要宣传网站的URL地址的特点,我们构建了一个基于URL的垃圾邮件过滤系统,通过查询邮件中是否含有URL黑名单中的URL地址,来识别垃圾邮件。在URL地址查询过程中,采用Hplf散列函数来加速查询。通过试验测试,该系统能有效地减少垃圾邮件的数量。  相似文献   

9.
目前单机版的网络爬行器已无法在一个有效的时间范围内完成一次搜集整个Web的任务。该文采用分布式网络爬行器加以解决。在分布式设计中,主要考虑节点内部多个线程的并行和节点之间的分布式并行,包括分布式网络爬行器的策略选择和动态可配置性2个方面。实验结果显示站点散列法基本达到了分布式设计的目标,在追求负载平衡的同时将系统的通信和管理开销降到最低。  相似文献   

10.
对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该算法在经典的SOG算法基础上,针对URL规则的特点,提出了最优窗口选择、模式串分组规约这两种优化技术,大幅度提高了SOG算法的匹配速度,在大规模URL规则集上效果尤其显著.该文设计的算法非常适合于大规模(100万级)URL实时在线匹配的应用环境.  相似文献   

11.
基于域名信息的钓鱼URL探测   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于域名信息的钓鱼URL探测方法。使用编辑距离寻找与已知正常域名相似的域名,根据域名信息提取域名单词最大匹配特征、域名分割特征和URL分割特征,利用上述特征训练分类器,由此判断其他URL是否为钓鱼URL。在真实数据集上的实验结果表明,该方法钓鱼URL正确检测率达94%。  相似文献   

12.
高性能并行爬行器   总被引:2,自引:0,他引:2  
爬行器是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息采集。详细介绍了Chao,一个高性能并行爬行器的设计和实现,包括它的系统框架、主要模块、运行流程、调度算法和URL检索算法。Chao的调度算法采用两次散列计算,不仅实现了负载平衡,而且在一定程度上避免了冲突;URL检索融合了树查找算法,在实现了快速检索的同时减少了存储空间需求。  相似文献   

13.
在结构化P2P网络中,针对分布式散列表与复杂查询之间的矛盾,提出了一个在分布式散列表网络中基于多关键字的数据信息索引和查找算法,对该算法进行了分析和优化,为解决分布式散列表网络与复杂查询之间的矛盾提供了一种有效方法。  相似文献   

14.
为解决在多跳环境下蓝牙设备之间动态组建散列网存在的问题,利用对生物的群体性行为研究得出的集群智能聚类模型的自组织特点,提出了一种新型组网算法BBSF(Based on Bionics Scatternet Formation)。BBSF算法利用一种无环连通的“类树”的拓扑结构实现各个散列网子网之间的融合,从而对于散列网子网间的合并可以实现简洁有效的控制,在多跳环境下提供了一种新的分布式动态组网设计途径。最后利用网络仿真软件NS-2(Network Simulator)及其扩展插件,对提出的算法进行了不同环境和条件下的仿真,并将该算法同蓝牙散列网的典型组网算法进行了性能比较。  相似文献   

15.
基于散列值的广域网服务发现   总被引:3,自引:0,他引:3  
周晓  陈鸣 《软件学报》2004,15(10):1565-1573
服务发现是网络自配置的重要内容.局域网服务发现方案已日臻完善并且应用到实际系统之中.对于广域网,由于客户和服务的分布性、动态性及数目众多的特点,必须解决包括可伸缩性在内的诸多问题.良好的可伸缩性是指在客户和服务的数目不断增长的情况下,服务发现系统仍然能够保持正确的功能和稳定的性能.提出了一种基于散列值的广域网服务发现方案.其方法是在服务表示模型和匹配条件的基础上,根据类型名和属性名集合为服务信息生成散列值,为服务请求生成散列值域.散列值指示负责存储服务信息的服务目录,散列值域指示有可能满足服务请求的服务目录.为服务目录指定值域,并使得所有的服务目录能够按照值域间的关系组织成一棵内容编址树.根据散列值将服务信息转发并存储到特定值域的服务目录上,根据散列值域将服务请求转发到有可能使其得到满足的服务目录上,从而实现广域网范围内的服务发现.模拟系统以及分析和对比表明,这一方案可以有效克服已有方案的局限,达到良好的可伸缩性.  相似文献   

16.
针对网络信息安全中大规模URL关键字匹配过程中自动机内存占用过大问题,提出一种基于分类思想的多模匹配算法,将URL关键字按照模式长度和匹配要求进行分类,分别使用Wu-Mamber算法和自动机类多模匹配增效算法GFAM进行匹配.实验结果表明,经过分类后,大规模配置(>10w)情况下,算法能够将占用内存降低为只使用GFAM算法的内存的5%以内.  相似文献   

17.
通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效率以及多线程抓取网页的目的。最后对某一特定主题的网页进行分析,并进行网页内容抓取,采用HTMLParser工具将抓取的网页数据源转换成特定的格式,可为面向主题的搜索信息系统以及数据挖掘提供数据源,为下一步研究工作做好准备。  相似文献   

18.
当前的蓝牙规范对微微网的形成、调度和路由选择问题进行了规定,但由多个微微网组成的散列网只作了简单的描述,没有对散列网的形成加以论述。针对这一问题提出了许多散列网的形成算法,但这些算法没有充分考虑设备的动态特性,就设备的动态特性提出了分布式动态算法。该算法提高了网络的自愈合性,及动态自适应性。  相似文献   

19.
网络钓鱼是目前信息安全领域的一个研究热点,基于域名信息的钓鱼检测是使用较为广泛的一种方法.文章利用编辑距离寻找与已知正常域名相近的域名,根据域名信息提取域名单词最大匹配特征、域名分割特征和URL分割特征,利用这些特征训练贝叶斯分类器,根据给定特征属于哪一类的概率来判断此URL是否为钓鱼URL,实验结果表明该方法能有效提高判断准确性.  相似文献   

20.
在对著名的SunWu多模式串匹配算法进行分析之后,结合QS算法的优点,设计了一种较高效的多模式串匹配算法QMS.该算法使用散列技术和前缀表减少发生部分匹配时实际进行的模式串比较次数.在计算跳跃距离时,充分考虑当前窗口紧邻的下一个字符带来的信息,使用更加精确的跳跃距离计算方法以获得更大的平均跳跃距离,从而获得更高的扫描效率和空间利用率.在真实文本上的对比实验表明,在通常应用环境中,该算法缩短了扫描时间,取得了较好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号