首页 | 本学科首页   官方微博 | 高级检索  
     

Web文档中词语权重计算方法的改进
引用本文:初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194.
作者姓名:初建崇  刘培玉  王卫玲
作者单位:1.海军航空工程学院 训练部,山东 烟台 264001 2.山东师范大学 信息科学与工程学院,济南 250014
摘    要:以向量空间模型作为Web文本的表示方法,对传统的TF*IDF公式进行了改进。首先,结合Web文本中HTML标签的修饰功能,体现了特征词在Web文本结构中的位置信息;其次,以广义信息论为理论基础,引入了基于二次熵的互信息作为权重计算公式的一项,体现了单词的类区分能力。实验验证了该方法的可行性和有效性。

关 键 词:向量空间模型  Web文本分类  权重调整  互信息
文章编号:1002-8331(2007)19-0192-03
修稿时间:2006-11

Improved approach to weighting terms in Web Text
CHU Jian-chong,LIU Pei-yu,WANG Wei-ling.Improved approach to weighting terms in Web Text[J].Computer Engineering and Applications,2007,43(19):192-194.
Authors:CHU Jian-chong  LIU Pei-yu  WANG Wei-ling
Affiliation:1.Naval Aeronautical Engineering Institute,Yantai,Shandong 264001,China 2.College of Information Science and Engineering,Shandong Normal University,Ji’nan 250014,China
Abstract:
Keywords:vector space model  Web text classification  weight adjustment  mutual information
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号