首页 | 本学科首页   官方微博 | 高级检索  
     

文档相似度量算法的研究与应用
引用本文:汪前进,施珺.文档相似度量算法的研究与应用[J].淮海工学院学报,2007,16(3):28-31.
作者姓名:汪前进  施珺
作者单位:淮海工学院计算机科学系 江苏连云港222005
基金项目:江苏省现代教育技术研究项目
摘    要:针对向量空间模型在文档相似度量方面的局限,提出了基于计算公共子串的文档相似度量算法。对求公共子串算法进行了改进,提高了空间效率。用XML存储学生毕业设计论文文档,通过Java提供的DOM API生成文档对象树。深度优先搜索树中结点,进行结点比较,计算论文文档中出现的雷同文本,结合文档的结构相似性,能有效计算文档相似度。

关 键 词:文档相似  度量  XML  公共子串  VSM
文章编号:1672-6685(2007)03-0028-04
修稿时间:2007-06-05

Research and Application of Document Similarity Measuring Algorithm
WANG Qian-jin,SHI Jun.Research and Application of Document Similarity Measuring Algorithm[J].Journal of Huaihai Institute of Technology:Natural Sciences Edition,2007,16(3):28-31.
Authors:WANG Qian-jin  SHI Jun
Affiliation:Dept. of Computer Science, Huaihai Institute of Technology, Lianyungang 222005, China
Abstract:In respect to the limitation of document similarity measuring based on VSM,this paper put forward an algorithm based on public substring of strings.Storing student's graduation-design documents with XML and generating document object tree by DOM API in java,it calculates homologous text numbers by visiting vertexes with depth-first search algorithm and making comparison of them.Taking into consideration the similarity of document structures,the new algorithm can judge documents similarity effectively.
Keywords:document similarity  measuring  XML  public substring  VSM
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号