基于模式识别算法的网页重复信息抽取仿真期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于模式识别算法的网页重复信息抽取仿真

作者姓名：	李玉琦李龙

作者单位：	1. 北京邮电大学;2. 中国科学技术大学

摘要：	当前的网页重复信息抽取方法缺少信息分类步骤，导致传统方法存在抽取全面率低、重复信息比例高以及整体性能差的问题。于是提出基于模式识别算法的网页重复信息抽取方法。利用类间平衡因子和词频获取网页信息的互信息特征。在关联规则的基础上根据网页置信度向量化互信息特征，完成网页信息特征的提取。利用模式识别中的支持向量机对网页信息分类，优化惩罚函数，建立软间隔支持向量机分类器。计算不同类别网页信息的结构相似度和语义相似度，结合上述计算结果获得网页信息相似性，完成网页重复信息的抽取。仿真结果表明，所提方法的抽取全面率高、重复信息比例低，且整体应用性能好，实验结果表明所提方法具有理想的应用效果。
关键词：	模式识别算法网页重复信息特征提取支持向量机信息抽取