首页 | 本学科首页   官方微博 | 高级检索  
     

有效地检索HTML文档
引用本文:刘芳,卢正鼎.有效地检索HTML文档[J].小型微型计算机系统,2000,21(9):986-988.
作者姓名:刘芳  卢正鼎
作者单位:华中理工大学计算机学院应用系,武汉,430074
基金项目:国防预研基金赞助
摘    要:WWW上的资源大多以HTML格式的文档存储,同普通文档不同,THML文档的标签特性使得它具有一定的结构我们采取了一种检索,它扩展了传统的传统检索,利用HTML文档结构提高了在WWW环境下的检索和率。本文介绍了HTML的结构以及传统的向量空间信息检索提出了运用聚族方法为标符合分组;最后详细讨论了如何利用文棣结构扩展加权架,使得检索词能更贴切地描述文档,以提高检索的准确性。

关 键 词:信息检索  向量空间模型  聚簇  HTML文档  WWW
修稿时间:1999-09-15

EFFECTIVELY RETRIEVE HTML DOCUMENTS
LIU Fang,LU Zheng-ding.EFFECTIVELY RETRIEVE HTML DOCUMENTS[J].Mini-micro Systems,2000,21(9):986-988.
Authors:LIU Fang  LU Zheng-ding
Abstract:The information resources in WWW are mostly stored as HTML. Unlike norm al documents, the HTML documents is structured. In this paper, we propose a meth od for making use of the structure to effectively retrieve HTML documents. This method derived from the traditional information retrieval. First, we describe th e structure of HTML and the traditional IR based on the vector space model. Then we propose our extending weighting schema and tags classes. Finally we provide the conclusion and future work.
Keywords:WWW HTML  Information retrieval  Vector space  model  Clustering  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号