两种重复提取算法的研究比较 |
| |
引用本文: | 殷波,蒋华,刘新平.两种重复提取算法的研究比较[J].网络安全技术与应用,2009(1):64-66. |
| |
作者姓名: | 殷波 蒋华 刘新平 |
| |
作者单位: | 桂林电子科技大学计算机学院,广西,541004 |
| |
摘 要: | 在利用计算机处理文本信息时,为了能发现大文本信息中的重复词句,本文介绍两种用来发现重复词句的算法——基于后缀树的方法和基于倒排索引的方法。第一种ST算法使用树型数据结构,每个节点表示一个字并且根节点为空。第二种算法应用倒排索引,以及哈希表实现方法(HT)。对同一样本运行仿真后,在时间和空间复杂度上对实验结果进行比较。得出结论,尽管ST算法在考虑到时间成本时要更优,但在空间复杂度方面倒排索引方法更胜一筹。
|
关 键 词: | 重复词句 重复序列 后缀树 算法 |
本文献已被 维普 万方数据 等数据库收录! |
|