首页 | 本学科首页   官方微博 | 高级检索  
     

基于N-Gram的文本去重方法研究
引用本文:王小华,卢小康.基于N-Gram的文本去重方法研究[J].杭州电子科技大学学报,2010,30(2):61-64.
作者姓名:王小华  卢小康
作者单位:杭州电子科技大学计算机应用研究所,浙江,杭州,310018
摘    要:中文文本去重是自然语言处理研究的一个重要方向。该文提出了一种基于N-Gram项和特征映射的文本去重方法。该方法提取N-Gram项的序列作为文本特征,将N-Gram项映射成哈希值,通过查找哈希值来判定文本是否重复。利用哈希数值查找代替字符串匹配,为实现快速的去重方法提供了一种新的可行的方法。实验表明,该算法对于普通网页文本去重能取得很好的效果。

关 键 词:文本去重  文本特征  特征映射  中文信息处理

A Study on Removing Duplication Using N-gram Terms for Chinese Text
WANG Xiao-hua,LU Xiao-kang.A Study on Removing Duplication Using N-gram Terms for Chinese Text[J].Journal of Hangzhou Dianzi University,2010,30(2):61-64.
Authors:WANG Xiao-hua  LU Xiao-kang
Affiliation:(Institute of Computer Application Technology,Hangzhou Dianzi University,Hangzhou Zhejiang 310018,China)
Abstract:中文文本去重是自然语言处理研究的一个重要方向。该文提出了一种基于N-Gram项和特征映射的文本去重方法。该方法提取N-Gram项的序列作为文本特征,将N-Gram项映射成哈希值,通过查找哈希值来判定文本是否重复。利用哈希数值查找代替字符串匹配,为实现快速的去重方法提供了一种新的可行的方法。实验表明,该算法对于普通网页文本去重能取得很好的效果。
Keywords:remove duplication  text feature  feature mapping  Chinese information processing
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号