首页 | 本学科首页   官方微博 | 高级检索  
     

基于KNN的不良文本过滤方法
引用本文:王洪彬,刘晓洁.基于KNN的不良文本过滤方法[J].计算机工程,2009,35(24):69-71.
作者姓名:王洪彬  刘晓洁
作者单位:四川大学计算机学院,成都,610065
基金项目:国家自然科学基金资助项目,国家"863"计划基金资助项目,教育部新世纪优秀人才计划基金资助项目 
摘    要:不良文本过滤是当前的一个研究热点。通过对χ2统计量的具体分析,证明χ2统计量在2类文本特征项提取过程中特有的优势。提出正面文本阈值δ,并从理论上推断出该值的大小。在此基础上改进KNN算法,消除了KNN算法中N的不确定性,彻底实现了无参性,大幅减少了分类所用的时间。实验证明,该算法符合Web实时在线分类的要求。

关 键 词:KNN算法  不良文本过滤  χ2统计量
修稿时间: 

Reactionary Text Filtering Method Based on K-Nearest Neighbor
WANG Hong-bin,LIU Xiao-jie.Reactionary Text Filtering Method Based on K-Nearest Neighbor[J].Computer Engineering,2009,35(24):69-71.
Authors:WANG Hong-bin  LIU Xiao-jie
Affiliation:(School of Computer, Sichuan University, Chengdu 610065)
Abstract:Reactionary text filtering is a hot research now. This paper proves that statistics χ~2 has the unique advantages in the features extraction of the two types of texts based on statistics χ~2 analysis. It proposes the threshold δ of the positive texts and infers the value of it in theory, and the K-Nearest Neighbor(KNN) algorithm is improved. This algorithm eliminates the uncertainty of KNN algorithm, realizes no reference, and reduces the time used in the text categorization. Experimental results show that the algorithm meets the real-time online text categorization.
Keywords:K-Nearest Neighbor(KNN) algorithm  reactionary text filtering
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号