共查询到20条相似文献,搜索用时 46 毫秒
1.
为了适应Internet信息量的快速增长,搜索引擎采用分布式技术搜集信息。采用分布式搜集技术的具体应用中主要存在两个关键问题:URL匹配和系统负载平衡。针对现有的几种分布式信息搜集系统的设计中存在的一些不足,提出了利用URL分级散列进行定位和匹配的方法。根据中文网络信息的特点,分析了几个对字符串散列较好的函数,设计了两种URL散列函数,应用于分布式中文信息搜集系统中。实验表明,系统在减少URL匹配的资源消耗和提高系统负载的均衡性方面有很好的效果。 相似文献
2.
两种对URL的散列效果很好的函数 总被引:32,自引:2,他引:32
在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列操作.针对两种典型的应用场合,即Web结构分析中的信息查询和并行搜索引擎中的负载平衡,基于一个含有2000多万个URL的序列,进行了大规模的实验评测.说明在许多文献中推荐的对字符串散列效果很好的ELFhash函数对URL的散列效果并不好,同时推荐了两种对URL散列效果很好的函数. 相似文献
3.
研究了分布式体系结构下的并行Crawler采集模型,分析了各组件的功能及各Cmwler在并行搜索时,为保证系统的负载均衡而应遵循的基本规则,并提出了一种基于散列(hash)的URL的调度算法。 相似文献
4.
吕勇 《计算机应用与软件》2008,25(9)
Web集群服务的请求分配算法大多使用Hash方法对请求URL进行散列,并按一定规则对请求内容进行负载均衡调度.提出了一种基于URL词典排序及全部URL按其词典序列分为k*n个集合的URLALLOC算法.该算法通过对URL进行词典序排序并将全部URL按其词典序列分为k*n个集合,依访问流量排序及分段互补等一系列方法将Web负载尽可能均匀地分布到多个后端服务器中.仿真实验结果表明:URLALLOC算法比现有的URL散列方法具有更好的负载均衡能力. 相似文献
5.
6.
在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列(hashing)操作.本文提出了一个针对URL数据集合的均匀哈希函数,它是ELFhash函数的变型.通过对天网搜索引擎采集的1亿多个URL集合的抽样实验表明:它能有效使得URL集在哈希表中均匀散布.并通过与MD5和SHA-1的对比,认为它是实用的.最后,指出了进一步的研究方向. 相似文献
7.
针对群智感知网络数据融合传输过程中隐私泄露、信息不完整、数据窜改等安全问题,提出了一种基于分布式压缩感知和散列函数的数据融合隐私保护算法。首先,采用分布式压缩感知方法对感知数据进行稀疏观测,去除冗余数据;其次,利用单向散列函数求取感知数据观测值的散列值,将其和不受限的伪装数据一起填充到感知数据观测值中,达到隐藏真实感知数据的目的;最后,在汇聚节点提取伪装数据之后,再次获取感知数据的散列值并验证数据的完整性。仿真结果表明,该算法兼顾了数据的机密性和完整性保护,同时大大降低了通信开销,在实际应用中具有很强的适用性和可扩展性。 相似文献
8.
一种快速的基于URL的垃圾邮件过滤系统 总被引:2,自引:0,他引:2
垃圾邮件是当前Internet上关注一个焦点问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮件过滤技术面临着新的挑战。针对目前垃圾邮件大都含有要宣传网站的URL地址的特点,我们构建了一个基于URL的垃圾邮件过滤系统,通过查询邮件中是否含有URL黑名单中的URL地址,来识别垃圾邮件。在URL地址查询过程中,采用Hplf散列函数来加速查询。通过试验测试,该系统能有效地减少垃圾邮件的数量。 相似文献
9.
10.
对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该算法在经典的SOG算法基础上,针对URL规则的特点,提出了最优窗口选择、模式串分组规约这两种优化技术,大幅度提高了SOG算法的匹配速度,在大规模URL规则集上效果尤其显著.该文设计的算法非常适合于大规模(100万级)URL实时在线匹配的应用环境. 相似文献
11.
12.
13.
在结构化P2P网络中,针对分布式散列表与复杂查询之间的矛盾,提出了一个在分布式散列表网络中基于多关键字的数据信息索引和查找算法,对该算法进行了分析和优化,为解决分布式散列表网络与复杂查询之间的矛盾提供了一种有效方法。 相似文献
14.
为解决在多跳环境下蓝牙设备之间动态组建散列网存在的问题,利用对生物的群体性行为研究得出的集群智能聚类模型的自组织特点,提出了一种新型组网算法BBSF(Based on Bionics Scatternet Formation)。BBSF算法利用一种无环连通的“类树”的拓扑结构实现各个散列网子网之间的融合,从而对于散列网子网间的合并可以实现简洁有效的控制,在多跳环境下提供了一种新的分布式动态组网设计途径。最后利用网络仿真软件NS-2(Network Simulator)及其扩展插件,对提出的算法进行了不同环境和条件下的仿真,并将该算法同蓝牙散列网的典型组网算法进行了性能比较。 相似文献
15.
基于散列值的广域网服务发现 总被引:3,自引:0,他引:3
服务发现是网络自配置的重要内容.局域网服务发现方案已日臻完善并且应用到实际系统之中.对于广域网,由于客户和服务的分布性、动态性及数目众多的特点,必须解决包括可伸缩性在内的诸多问题.良好的可伸缩性是指在客户和服务的数目不断增长的情况下,服务发现系统仍然能够保持正确的功能和稳定的性能.提出了一种基于散列值的广域网服务发现方案.其方法是在服务表示模型和匹配条件的基础上,根据类型名和属性名集合为服务信息生成散列值,为服务请求生成散列值域.散列值指示负责存储服务信息的服务目录,散列值域指示有可能满足服务请求的服务目录.为服务目录指定值域,并使得所有的服务目录能够按照值域间的关系组织成一棵内容编址树.根据散列值将服务信息转发并存储到特定值域的服务目录上,根据散列值域将服务请求转发到有可能使其得到满足的服务目录上,从而实现广域网范围内的服务发现.模拟系统以及分析和对比表明,这一方案可以有效克服已有方案的局限,达到良好的可伸缩性. 相似文献
16.
17.
通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效率以及多线程抓取网页的目的。最后对某一特定主题的网页进行分析,并进行网页内容抓取,采用HTMLParser工具将抓取的网页数据源转换成特定的格式,可为面向主题的搜索信息系统以及数据挖掘提供数据源,为下一步研究工作做好准备。 相似文献
18.
当前的蓝牙规范对微微网的形成、调度和路由选择问题进行了规定,但由多个微微网组成的散列网只作了简单的描述,没有对散列网的形成加以论述。针对这一问题提出了许多散列网的形成算法,但这些算法没有充分考虑设备的动态特性,就设备的动态特性提出了分布式动态算法。该算法提高了网络的自愈合性,及动态自适应性。 相似文献
19.
20.
在对著名的SunWu多模式串匹配算法进行分析之后,结合QS算法的优点,设计了一种较高效的多模式串匹配算法QMS.该算法使用散列技术和前缀表减少发生部分匹配时实际进行的模式串比较次数.在计算跳跃距离时,充分考虑当前窗口紧邻的下一个字符带来的信息,使用更加精确的跳跃距离计算方法以获得更大的平均跳跃距离,从而获得更高的扫描效率和空间利用率.在真实文本上的对比实验表明,在通常应用环境中,该算法缩短了扫描时间,取得了较好的效果. 相似文献