首页 | 本学科首页   官方微博 | 高级检索  
     

NQPC:一种新型的基于查询日志的网页分类方法
引用本文:刘祥涛,刘书良.NQPC:一种新型的基于查询日志的网页分类方法[J].计算机工程与应用,2012,48(11):82-87,128.
作者姓名:刘祥涛  刘书良
作者单位:1. 广东电子工业研究院,广东东莞523808;中国科学院计算技术研究所,北京100190
2. 亿赞普科技有限公司,北京,100081
基金项目:国家自然科学基金(No.60803085 No.60873245); 广东省中国科学院全面战略合作项目(No.2009A0091100002 No.2010A090100004); 东莞市重大科技专项(No.2009215102001)
摘    要:网页分类可对海量网页进行分门别类,可应用于许多方面。现存的网页自动分类方法较多,其中常用的基于网页内容的方法由于网页内容的不纯,导致其存在较大的性能提升空间。基于查询日志,提出了一种新型的网页分类方法NQPC。该方法提出一种低维特征向量抽取方法,从而避免"维度灾难";基于优质的查询日志进行网页分类,查询日志相对网页内容而言,具有内容较纯的优点;提出一种提升分类准确率的过滤方法。实验结果表明,提出的网页分类方法具有优异的性能表现,使其具有良好的应用前景。

关 键 词:查询日志  网页分类  机器学习  文本分类  特征抽取
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号