期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

雷凯王东海《计算机工程》2008,34(13):78-80,1

针对传统的周期性集中式搜索(Crawler)的弱点和增量式Crawler的难点,提出预测更新策略,给出判别网页更新的MD5算法、URL调度算法和URL缓存算法,描述系统各个模块的分布式构架的实现,建立测试集数据对算法进行评测。该系统在北大天网搜索引擎上运行半年多,更新周期缩短了20天,变化预测命中率达到79.4%,提高了时效性、扩展性和稳定性。相似文献

2.

基于Rabin指纹方法的URL去重算法 总被引：2，自引：1，他引：1

梁正友张林才《计算机应用》2008,28(Z2)

针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法.此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位数据的值做一次判断.实验表明,该算法能有效去除URL集合中重复的URL.提高检索速度. 相似文献

3.

一种基于MD5的近似图像检测算法研究*

叶志伟夏彬王大震张彦超《计算机应用研究》2010,27(2):788-790

在WWW图像搜索引擎中,如何快速而准确地检测出近似或重复图像已经成为亟待解决的问题,提出一种基于MD5的近似图像检测算法。该算法选取图像分块灰度均值为特征,经过拉普拉斯特征值降维,矢量量化后,图像特征被转换为MD5值,然后根据生成的MD5值进行近似或重复图像检测。实验结果表明该算法是有效的。相似文献

4.

高性能并行爬行器 总被引：2，自引：0，他引：2

蒋宗礼赵钦肖华王蕊《计算机工程与设计》2006,27(24):4762-4766

爬行器是搜索引擎的重要组成部分，它在搜索引擎中负责网络信息采集。详细介绍了Chao，一个高性能并行爬行器的设计和实现，包括它的系统框架、主要模块、运行流程、调度算法和URL检索算法。Chao的调度算法采用两次散列计算，不仅实现了负载平衡，而且在一定程度上避免了冲突；URL检索融合了树查找算法，在实现了快速检索的同时减少了存储空间需求。相似文献

5.

一种采用MD5加密算法防止URL攻击的方法

张杰李华伟周立军《现代计算机》2011,(7):52-54

在简要分析当前URL攻击手段的基础上,提出一种使用MD5加密算法有效防止URL攻击的方法,按照URL合法性检测流程,设计基于Java MVC轻量级框架Struts的测试方案,比较MD5和DES算法在URL参数加密过程中的性能。相似文献

6.

MD5算法在农业数据消重中的应用

刘峰王儒敬《计算机系统应用》2009,18(1):104-106

垂直搜索引擎的数据来源于各大相关网站。随着互联网用户越来越多,相互转载,重复发布的数据也越来越多,由于这些重复及相似数据的存在,严重影响了搜索引擎的检索结果。针对这一问题本文提出了一种解决方法,即利用MD5算法在数据处理阶段有效的消除冗余数据。结果表明该方法很好的提高了检索质量。相似文献

7.

一种改进URL保护算法研究

《微型机与应用》2016,(4)

针对传统URL保护算法存在暴露实现细节的问题,提出一种采用MD5和AES保护URL的改进算法。首先将原始URL和密钥key1按规定顺序装配,计算MD5检验和,并将检验和嵌入原始URL得到防篡改URL;其次使用密钥key2对防篡改URL执行AES加密得到加密URL;最后对加密URL进行编码,得到受保护URL。解析过程逆向操作,期间验证检验和,丢弃无效请求。在PHP中测试两种保护算法的性能,结果表明改进算法与传统算法相比,生成速度变为原来的2倍,解析速度变为原来的0.8倍。而相比传统算法,改进算法具有保密性特点,能够提高Web应用的安全性。相似文献

8.

云环境下个人医疗信息的密文检索方法研究

《计算机应用与软件》2017,(9)

针对云环境下个人医疗信息检索时出现的隐私问题,设计一种带有身份认证的公钥密文检索方法。采用RSA加密算法与SHA哈希算法对检索的关键词进行加密,先利用SHA对不同的关键词生成hash值,以防止检索时将关键词暴露给云服务器,接着用RSA公钥对关键词的hash值进行加密,并保存关键词密文。用户检索时,先用自己的私钥对采用相同SHA哈希算法生成的关键词hash值加密,同时加入用私钥对身份加密的数字签名信息,并一起上传云服务器。服务器检索时,利用用户的公钥进行解密,得到身份验证和关键词hash值。服务器先对身份进行认证,认证通过后再用公钥对关键词hash值加密,然后与保存的关键词密文进行匹配,相同则返回密文数据,不同则提示查询出错。此外对个人医疗数据的其他字段采用DES与RSA的混合加密方式。该方法不仅保障了系统的性能,而且有效地保护了用户数据的机密性与隐私性。相似文献

9.

基于双混沌映射的文本hash函数构造* 总被引：1，自引：1，他引：0

康小培李艳涛邓绍江冯艳茹《计算机应用研究》2010,27(7):2636-2637

提出了一种基于混沌Logistic 映射和斜帐篷映射的文本hash函数算法。该算法将明文信息分组并转换为相应的ASCII码值,然后把该值作为Logistic映射的迭代次数,迭代生成的值作为斜帐篷映射的初始值进行迭代,然后依据一定的规则从生成值中提取长度为128 bit的hash值。通过仿真对该算法的单向性、混乱与扩散、碰撞等性能进行分析,理论分析和仿真实验证明该算法可以满足hash函数的各项性能要求。相似文献

10.

简报近似网页的一种检测算法

杨文忠彭曙蓉《微计算机应用》2006,(1)

用户进行Web信息检索时,网络往往返回大量的近似网页(可看作重复网页)。针对搜索引擎查询Web信息所存在的局限性,考虑到基于关键词匹配的搜索引擎系统的特点,结合使用网页的向量空间模型,采用以下算法快速、有效地发现WWW上的重复或相似网页,提高检索效率。首先采用MD5算法(信息-摘要算法)提取返回文本的信息摘要。MD5将整个文件当作一个大文本信息,通过其不可逆的字符串变换算法,产生了一个唯一的MD5信息摘要。MD5以512位分组来处理输入的信息,且每一分组又被划分为16个32位子分组,经过了一系列的处理后,算法的输出由四个32位分组组… 相似文献