首页 | 本学科首页   官方微博 | 高级检索  
     

计算Web页面信息熵的方法
引用本文:朱红灿,陈能华,周永红.计算Web页面信息熵的方法[J].计算机工程与设计,2010,31(1).
作者姓名:朱红灿  陈能华  周永红
作者单位:湘潭大学,公共管理学院,湖南,湘潭,411105
摘    要:为有效解决Web信息抽取中的主题漂移问题,提出了一种能更准确地反映Web页面信息熵的计算方法--混合熵.该方法把需要计算信息熵的信息块放在多页面网站环境中进行讨论,通过考虑页面内信息对信息熵计算的影响,并同时考虑由模版生成的页面间相同的信息分布的影响,从而保证了信息熵的计算的准确度.用该方法解决信息抽取中信息块的信息熵计算问题,并将仿真结果与其它算法进行比较,结果表明了该方法计算的信息熵的准确度及主题相关信息块与主题无关信息块之间的区分度优于其它方法.

关 键 词:信息熵  信息抽取  信息块  模版  特征词

Method for calculating entropy of web information block
ZHU Hong-can,CHEN Nen-hua,ZHOU Yong-hong.Method for calculating entropy of web information block[J].Computer Engineering and Design,2010,31(1).
Authors:ZHU Hong-can  CHEN Nen-hua  ZHOU Yong-hong
Affiliation:ZHU Hong-can,CHEN Nen-hua,ZHOU Yong-hong(School of Management,Xiangtan University,Xiangtan 411105,China)
Abstract:To solve the topic drift problem in web information extraction effectively,a new computation of entropy based on web page is proposed.The information within local page and same information distribution between websites are considered completely to greatly guarantee improving the precision.Calculating entropy of web information block in web information extraction is used to verify this al-gorithm and the result of simulation,which is compared to other well-known algorithms,indicated that this algorithm is be...
Keywords:information entropy  information extraction  information block  template  term
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号