首页 | 本学科首页   官方微博 | 高级检索  
     

两种重复提取算法的研究比较
引用本文:殷波,蒋华,刘新平.两种重复提取算法的研究比较[J].网络安全技术与应用,2009(1):64-66.
作者姓名:殷波  蒋华  刘新平
作者单位:桂林电子科技大学计算机学院,广西,541004
摘    要:在利用计算机处理文本信息时,为了能发现大文本信息中的重复词句,本文介绍两种用来发现重复词句的算法——基于后缀树的方法和基于倒排索引的方法。第一种ST算法使用树型数据结构,每个节点表示一个字并且根节点为空。第二种算法应用倒排索引,以及哈希表实现方法(HT)。对同一样本运行仿真后,在时间和空间复杂度上对实验结果进行比较。得出结论,尽管ST算法在考虑到时间成本时要更优,但在空间复杂度方面倒排索引方法更胜一筹。

关 键 词:重复词句  重复序列  后缀树  算法
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号