共查询到10条相似文献,搜索用时 546 毫秒
1.
2.
基于Rabin指纹方法的URL去重算法 总被引:2,自引:1,他引:1
针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法.此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位数据的值做一次判断.实验表明,该算法能有效去除URL集合中重复的URL.提高检索速度. 相似文献
3.
4.
5.
6.
垂直搜索引擎的数据来源于各大相关网站。随着互联网用户越来越多,相互转载,重复发布的数据也越来越多,由于这些重复及相似数据的存在,严重影响了搜索引擎的检索结果。针对这一问题本文提出了一种解决方法,即利用MD5算法在数据处理阶段有效的消除冗余数据。结果表明该方法很好的提高了检索质量。 相似文献
7.
8.
《计算机应用与软件》2017,(9)
针对云环境下个人医疗信息检索时出现的隐私问题,设计一种带有身份认证的公钥密文检索方法。采用RSA加密算法与SHA哈希算法对检索的关键词进行加密,先利用SHA对不同的关键词生成hash值,以防止检索时将关键词暴露给云服务器,接着用RSA公钥对关键词的hash值进行加密,并保存关键词密文。用户检索时,先用自己的私钥对采用相同SHA哈希算法生成的关键词hash值加密,同时加入用私钥对身份加密的数字签名信息,并一起上传云服务器。服务器检索时,利用用户的公钥进行解密,得到身份验证和关键词hash值。服务器先对身份进行认证,认证通过后再用公钥对关键词hash值加密,然后与保存的关键词密文进行匹配,相同则返回密文数据,不同则提示查询出错。此外对个人医疗数据的其他字段采用DES与RSA的混合加密方式。该方法不仅保障了系统的性能,而且有效地保护了用户数据的机密性与隐私性。 相似文献
9.
10.
用户进行Web信息检索时,网络往往返回大量的近似网页(可看作重复网页)。针对搜索引擎查询Web信息所存在的局限性,考虑到基于关键词匹配的搜索引擎系统的特点,结合使用网页的向量空间模型,采用以下算法快速、有效地发现WWW上的重复或相似网页,提高检索效率。首先采用MD5算法(信息-摘要算法)提取返回文本的信息摘要。MD5将整个文件当作一个大文本信息,通过其不可逆的字符串变换算法,产生了一个唯一的MD5信息摘要。MD5以512位分组来处理输入的信息,且每一分组又被划分为16个32位子分组,经过了一系列的处理后,算法的输出由四个32位分组组… 相似文献