重复网页检测算法综述 |
| |
引用本文: | 杨武,唐蓉,任丽芸.重复网页检测算法综述[J].数字社区&智能家居,2010,6(22):6237-6239. |
| |
作者姓名: | 杨武 唐蓉 任丽芸 |
| |
作者单位: | 重庆理工大学计算机科学与工程学院,重庆400050 |
| |
摘 要: | 重复网页检测是搜索引擎的关键技术之一,算法的选择直接影响搜索引擎的检索效率。该文详细分析了现目前常用的重复网页检测算法,并从算法所采取的两个步骤(特征提取,特征比较)入手,比较了各算法的异同与其各自的优缺点,为进一步优化算法找出思路。
|
关 键 词: | 重复网页检测 特征提取 特征比较 |
本文献已被 维普 等数据库收录! |
|