首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 546 毫秒
1.
雷凯  王东海 《计算机工程》2008,34(13):78-80,1
针对传统的周期性集中式搜索(Crawler)的弱点和增量式Crawler的难点,提出预测更新策略,给出判别网页更新的MD5算法、URL调度算法和URL缓存算法,描述系统各个模块的分布式构架的实现,建立测试集数据对算法进行评测。该系统在北大天网搜索引擎上运行半年多,更新周期缩短了20天,变化预测命中率达到79.4%,提高了时效性、扩展性和稳定性。  相似文献   

2.
基于Rabin指纹方法的URL去重算法   总被引:2,自引:1,他引:1  
针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法.此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位数据的值做一次判断.实验表明,该算法能有效去除URL集合中重复的URL.提高检索速度.  相似文献   

3.
在WWW图像搜索引擎中,如何快速而准确地检测出近似或重复图像已经成为亟待解决的问题,提出一种基于MD5的近似图像检测算法。该算法选取图像分块灰度均值为特征,经过拉普拉斯特征值降维,矢量量化后,图像特征被转换为MD5值,然后根据生成的MD5值进行近似或重复图像检测。实验结果表明该算法是有效的。  相似文献   

4.
高性能并行爬行器   总被引:2,自引:0,他引:2  
爬行器是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息采集。详细介绍了Chao,一个高性能并行爬行器的设计和实现,包括它的系统框架、主要模块、运行流程、调度算法和URL检索算法。Chao的调度算法采用两次散列计算,不仅实现了负载平衡,而且在一定程度上避免了冲突;URL检索融合了树查找算法,在实现了快速检索的同时减少了存储空间需求。  相似文献   

5.
在简要分析当前URL攻击手段的基础上,提出一种使用MD5加密算法有效防止URL攻击的方法,按照URL合法性检测流程,设计基于Java MVC轻量级框架Struts的测试方案,比较MD5和DES算法在URL参数加密过程中的性能。  相似文献   

6.
垂直搜索引擎的数据来源于各大相关网站。随着互联网用户越来越多,相互转载,重复发布的数据也越来越多,由于这些重复及相似数据的存在,严重影响了搜索引擎的检索结果。针对这一问题本文提出了一种解决方法,即利用MD5算法在数据处理阶段有效的消除冗余数据。结果表明该方法很好的提高了检索质量。  相似文献   

7.
针对传统URL保护算法存在暴露实现细节的问题,提出一种采用MD5和AES保护URL的改进算法。首先将原始URL和密钥key1按规定顺序装配,计算MD5检验和,并将检验和嵌入原始URL得到防篡改URL;其次使用密钥key2对防篡改URL执行AES加密得到加密URL;最后对加密URL进行编码,得到受保护URL。解析过程逆向操作,期间验证检验和,丢弃无效请求。在PHP中测试两种保护算法的性能,结果表明改进算法与传统算法相比,生成速度变为原来的2倍,解析速度变为原来的0.8倍。而相比传统算法,改进算法具有保密性特点,能够提高Web应用的安全性。  相似文献   

8.
针对云环境下个人医疗信息检索时出现的隐私问题,设计一种带有身份认证的公钥密文检索方法。采用RSA加密算法与SHA哈希算法对检索的关键词进行加密,先利用SHA对不同的关键词生成hash值,以防止检索时将关键词暴露给云服务器,接着用RSA公钥对关键词的hash值进行加密,并保存关键词密文。用户检索时,先用自己的私钥对采用相同SHA哈希算法生成的关键词hash值加密,同时加入用私钥对身份加密的数字签名信息,并一起上传云服务器。服务器检索时,利用用户的公钥进行解密,得到身份验证和关键词hash值。服务器先对身份进行认证,认证通过后再用公钥对关键词hash值加密,然后与保存的关键词密文进行匹配,相同则返回密文数据,不同则提示查询出错。此外对个人医疗数据的其他字段采用DES与RSA的混合加密方式。该方法不仅保障了系统的性能,而且有效地保护了用户数据的机密性与隐私性。  相似文献   

9.
基于双混沌映射的文本hash函数构造*   总被引:1,自引:1,他引:0  
提出了一种基于混沌Logistic 映射和斜帐篷映射的文本hash函数算法。该算法将明文信息分组并转换为相应的ASCII码值,然后把该值作为Logistic映射的迭代次数,迭代生成的值作为斜帐篷映射的初始值进行迭代,然后依据一定的规则从生成值中提取长度为128 bit的hash值。通过仿真对该算法的单向性、混乱与扩散、碰撞等性能进行分析,理论分析和仿真实验证明该算法可以满足hash函数的各项性能要求。  相似文献   

10.
用户进行Web信息检索时,网络往往返回大量的近似网页(可看作重复网页)。针对搜索引擎查询Web信息所存在的局限性,考虑到基于关键词匹配的搜索引擎系统的特点,结合使用网页的向量空间模型,采用以下算法快速、有效地发现WWW上的重复或相似网页,提高检索效率。首先采用MD5算法(信息-摘要算法)提取返回文本的信息摘要。MD5将整个文件当作一个大文本信息,通过其不可逆的字符串变换算法,产生了一个唯一的MD5信息摘要。MD5以512位分组来处理输入的信息,且每一分组又被划分为16个32位子分组,经过了一系列的处理后,算法的输出由四个32位分组组…  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号