基于改进K最近邻分类算法的不良网页并行识别 |
| |
作者姓名: | 徐雅斌李卓 陈俊伊 |
| |
作者单位: | 1. 北京信息科技大学 计算机学院,北京 100101;2. 网络文化与数字传播北京市重点实验室(北京信息科技大学),北京 100101 |
| |
基金项目: | 国家自然科学基金资助项目;国家自然科学基金资助项目;国家自然科学基金资助项目 |
| |
摘 要: | 互联网中,黄色、暴力、赌博、反动等不良网页大量存在。如果不进行有效过滤,将给搜索服务带来不良的影响。采用改进的K最近邻分类算法来提高识别的准确率,并在虚拟化平台上通过开源的Hadoop软件所提供的MapReduce模型进行分布式并行处理。对比实验结果表明,所采用的识别方法的识别准确率和识别效率都有较大的提高。
|
关 键 词: | 不良网页 文本分类 K最近邻分类算法 Hadoop MapReduce |
收稿时间: | 2013-07-30 |
|
| 点击此处可从《计算机应用》浏览原始摘要信息 |
|
点击此处可从《计算机应用》下载全文 |
|