首页 | 本学科首页   官方微博 | 高级检索  
     

基于向量空间模型的网页文本表示改进算法
引用本文:曾致远,张莉.基于向量空间模型的网页文本表示改进算法[J].计算机工程,2006,32(3):134-135,139.
作者姓名:曾致远  张莉
作者单位:华中科技大学水电与数字化工程学院,武汉,430074
摘    要:介绍了一种新的文本表示算法,应用在网页文本过滤系统中。比起传统的向量空间模型,这种建立在其上的改进算法有更快的过滤速度和更高的过滤精度。该算法直接从过滤模板的特征集中取出词条,只在网页文本出现该词的地方进行精确处理。根据特征项所在的网页标签,赋予不同的权值系数,以准确定义特征词在文中的重要程度,最后建立该网页的文本表示模型。

关 键 词:网页  文本表示  向量空间模型  特征项  权值
文章编号:1000-3428(2006)03-0134-02
收稿时间:2005-02-03
修稿时间:2005-02-03

Improved Algorithm of Web Document Representation Based on Vector Space Model
ZENG Zhiyuan,ZHANG Li.Improved Algorithm of Web Document Representation Based on Vector Space Model[J].Computer Engineering,2006,32(3):134-135,139.
Authors:ZENG Zhiyuan  ZHANG Li
Affiliation:College of Hydroelectricity and Digital Engineering, Huazhong University of Science and Technology, Wuhan 430074
Abstract:This paper introduces a new algorithm of text representation, which applies in Web document information filtering system. Compared with the traditional VSM, such an improved algorithm based on VSM makes more rapid filtering speed and higher filtering precision. This algorithm straight picks Out attribute from attribute aggregate of filtering template, just disposes of the place where this attribute appeared in Web document. Then it gives different coefficient of weighting according to Web label which attribute perched on, and gets more exact weightiness of attribute. Finally it finds Web document representation model from the above result.
Keywords:Web document  Text representation  VSM  Attribute  Weighting
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号