首页 | 本学科首页   官方微博 | 高级检索  
     

基于VSM的文本相似度计算的研究*
引用本文:郭庆琳,李艳梅,唐琦. 基于VSM的文本相似度计算的研究*[J]. 计算机应用研究, 2008, 25(11): 3256-3258
作者姓名:郭庆琳  李艳梅  唐琦
作者单位:1. 华北电力大学,计算机科学与技术学院,北京,102206;北京大学,计算机系,北京,100871
2. 华北电力大学,计算机科学与技术学院,北京,102206
基金项目:国家自然科学基金资助项目(90412010, 70572090);NSCF(60573166);华北电力大学博士学位教师科研基金资助项目(H0585)
摘    要:文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TDIDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TDIDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。

关 键 词:文本相似度; 特征选择; 词频—逆文档频率法; 向量空间模型

Similarity computing of documents based on VSM
GUO Qing lin,LI Yan mei,TANG Qi. Similarity computing of documents based on VSM[J]. Application Research of Computers, 2008, 25(11): 3256-3258
Authors:GUO Qing lin  LI Yan mei  TANG Qi
Affiliation:(1.School of Computer Science & Technology, North China Electric Power University, Beijing 102206, China; 2. Dept. of Computer Science & Technology, Peking University, Beijing 100871, China)
Abstract:The precision and efficiency of the computing of documents similarity is the foundation and key of other documents process.This paper improved the DF and TF-IDF arithmetic.In this way,DF's time complexity was linearity that suited the mass documents process,and could make up the fault that exceptional useful characters might be deleted.Also,it did a mend on the TF-IDF arithmetic to improve the precision of documents similarity.
Keywords:documents similarity   feature selection   TF-IDF( term frequency-inverse document frequency)    VSM( vectorspace model)
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号