基于XML和N层VSM的Web信息检索 |
| |
引用本文: | 张冉 卡米力·毛依丁. 基于XML和N层VSM的Web信息检索[J]. 微机发展, 2006, 16(5): 56-58 |
| |
作者姓名: | 张冉 卡米力·毛依丁 |
| |
作者单位: | 新疆大学信息工程学院计算机系 新疆乌鲁木齐830046 |
| |
摘 要: | 基于XML文档格式良好、层次清晰,可以方便地操纵、分析其结构的特点。文中在将Web上的HTML文档转化为XML文档的基础上,通过Java中的DOM树,分析文档的层次结构。把文档分为层次化的文本段,对传统的VSM算法进行改进,把每个文本段转换为空间向量,实现了N层VSM算法,通过试验证明,改进后算法的查全率和查准率都要优于传统的VSM算法。
|
关 键 词: | XML XHTML N层向量空间模型 查全率 查准率 |
文章编号: | 1673-629X(2006)05-0056-03 |
修稿时间: | 2005-09-07 |
Web Information Retrieval Based on XML and N - level VSM |
| |
Abstract: | XML documents have well form,clear levels and analyses the structure easily.Convert HTML documents on Web into XML document,so can use DOM tree in Java to analyse the hierarchy of the documents.The documents can be divided into N level text paragraphs' content,which are represented by index term vectors.Using this method improve traditional vector space model,the N level VSM is achieved.And proved by the experiment,both recall and precision of the N level VSM are performing well than the traditional VSM. |
| |
Keywords: | XML XHTML N-level VSM recall precision |
本文献已被 CNKI 等数据库收录! |
|