首页 | 本学科首页   官方微博 | 高级检索  
     

基于多视图典型相关分析的垃圾网页检测
引用本文:高 爽,张化祥,房晓南.基于多视图典型相关分析的垃圾网页检测[J].计算机应用研究,2013,30(3):810-813.
作者姓名:高 爽  张化祥  房晓南
作者单位:1. 山东师范大学 信息科学与工程学院, 济南 250014; 2. 山东省分布式计算机软件新技术重点实验室, 济南 250014
基金项目:国家自然科学基金资助项目(61170145); 国家教育部高等学校博士点专项基金资助项目(20113704110001); 山东省自然科学基金和科技攻关计划资助项目(ZR2010FM021, 2008B0026, 2010G0020115)
摘    要:首先将垃圾网页特征分为两个不同的视图, 即基于内容特征的视图和基于链接特征的视图, 利用典型相关分析及其相关改进方法进行特征提取, 生成两组新的特征; 再对新生成的两视图特征采用不同组合方式产生单视图数据, 并用这组数据作为训练数据构建分类算法。实验结果表明, 将垃圾网页看成两视图数据, 并应用多视图典型相关分析技术, 可有效提高垃圾网页的识别精度。

关 键 词:垃圾网页检测  典型相关分析  多视图分类  特征抽取

Multi-view canonical correlation analysis based Web spam detection
GAO Shuang,ZHANG Hua-xiang,FANG Xiao-nan.Multi-view canonical correlation analysis based Web spam detection[J].Application Research of Computers,2013,30(3):810-813.
Authors:GAO Shuang  ZHANG Hua-xiang  FANG Xiao-nan
Affiliation:1. School of Information Science & Engineering, Shandong Normal University, Jinan 250014, China; 2. Shandong Provincial Key Laboratory for Novel Distributed Computer Software Technology, Jinan 250014, China
Abstract:Firstly this paper divided the features of Web spam pages into the content feature based view and the link feature based view. And it employed canonical correlation analysis and promotion methods for feature extraction to generate two new feature sets for each Web page. Then it implemented different combinations of the two new feature sets of Web pages to produce a single view for Web pages, which used to construct classification algorithms. Experimental results show that considering Web page data as two view data and applying multi-view canonical correlation analysis techniques can effectively improve the recognition accuracy of Web spam.
Keywords:Web spam detection  canonical correlation analysis(CCA)  multi-view classification  feature extraction
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号