首页
|
本学科首页
官方微博
|
高级检索
全部学科
医药、卫生
生物科学
工业技术
交通运输
航空、航天
环境科学、安全科学
自然科学总论
数理科学和化学
天文学、地球科学
农业科学
哲学、宗教
社会科学总论
政治、法律
军事
经济
历史、地理
语言、文字
文学
艺术
文化、科学、教育、体育
马列毛邓
全部专业
中文标题
英文标题
中文关键词
英文关键词
中文摘要
英文摘要
作者中文名
作者英文名
单位中文名
单位英文名
基金中文名
基金英文名
杂志中文名
杂志英文名
栏目中文名
栏目英文名
DOI
责任编辑
分类号
杂志ISSN号
改进的Simhash算法在文本查重中的研究及应用
作者姓名:
庞宇
张倩
韩凯
肖彬
作者单位:
北方工业大学信息学院
基金项目:
大学生科研训练项目,编号:218051360019XN003
摘 要:
传统Simhash算法是由Google公司提出以实现大规模文本去重的方法,其优势在于处理高效,且准确度高。当前,Simhash算法在文本检测、异常检测等领域有诸多应用。但传统Simhash算法的权值计算方式容易造成信息丢失,导致准确性降低。针对此问题,本文提出一种使用TF-IDF算法来计算权值的方式,并进行了系统设计与实现。结果表明,利用改进的Simhash算法实现的文本查重系统,其准确率、效率均优于传统方法。
关 键 词:
Simhash
TF-IDF
相似度计算
DJANGO
本文献已被
维普
等数据库收录!
设为首页
|
免责声明
|
关于勤云
|
加入收藏
Copyright
©
北京勤云科技发展有限公司
京ICP备09084417号