首页 | 本学科首页   官方微博 | 高级检索  
     

基于XML和N层VSM的Web信息检索
引用本文:张冉,卡米力·毛依丁.基于XML和N层VSM的Web信息检索[J].微机发展,2006,16(5):56-58.
作者姓名:张冉  卡米力·毛依丁
作者单位:新疆大学信息工程学院计算机系 新疆乌鲁木齐830046
摘    要:基于XML文档格式良好、层次清晰,可以方便地操纵、分析其结构的特点。文中在将Web上的HTML文档转化为XML文档的基础上,通过Java中的DOM树,分析文档的层次结构。把文档分为层次化的文本段,对传统的VSM算法进行改进,把每个文本段转换为空间向量,实现了N层VSM算法,通过试验证明,改进后算法的查全率和查准率都要优于传统的VSM算法。

关 键 词:XML  XHTML  N层向量空间模型  查全率  查准率
文章编号:1673-629X(2006)05-0056-03
修稿时间:2005年9月7日

Web Information Retrieval Based on XML and N - level VSM
Abstract:XML documents have well form,clear levels and analyses the structure easily.Convert HTML documents on Web into XML document,so can use DOM tree in Java to analyse the hierarchy of the documents.The documents can be divided into N level text paragraphs' content,which are represented by index term vectors.Using this method improve traditional vector space model,the N level VSM is achieved.And proved by the experiment,both recall and precision of the N level VSM are performing well than the traditional VSM.
Keywords:XML  XHTML  N-level VSM  recall  precision
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号