基于散列思想的网页去重系统 |
| |
作者姓名: | 孔素然 |
| |
作者单位: | 宁波大红鹰学院,浙江宁波,315175 |
| |
摘 要: | 信息时代的到来,使计算机网络的使用频率越来越高,互联网上的信息也越来越多。广大Internet用户在使用搜索引擎系统时,常常会发现搜索输出结果里面包含大量的重复信息。如何快速准确地发现这些内容上相似的网页,并将重复的页面清除是目前最关注的问题。网页去重是提高检索质量的有效途径。给出一种基于散列思想的网页去重系统,介绍系统的具体实现步骤,算法有较高的判断正确率,在信息检索中有较好的应用前景。
|
关 键 词: | 网页去重 散列 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|