首页 | 本学科首页   官方微博 | 高级检索  
     

用于Email分类的综合特征表示方法
引用本文:于琨,耿焕同,寇苏玲,张婷慧,蔡庆生.用于Email分类的综合特征表示方法[J].小型微型计算机系统,2006,27(5):930-932.
作者姓名:于琨  耿焕同  寇苏玲  张婷慧  蔡庆生
作者单位:中国科学技术大学,计算机科学技术系,安徽,合肥,230027
基金项目:国家高技术研究发展计划(863计划);中国科学院资助项目
摘    要:基于词频的特征表示方法难以准确表示Email的主要内容,从而导致分类的综合性能(F—score)较差,为了解决这个问题,将领域知识引入了Email的特征表示,并在此基础上提出了一种综合领域知识和词频的特征表示方法,用于Email分类.本方法在词频特征的基础上加入人工总结出的领域特征,从而更加准确地表示Email的主要内容,以提高Email分类的平均F—score.基于1080篇Email的分类测试结果表明,与基于词频的特征表示方法和基于领域知识的特征表示方法相比,本方法在针对Email标题实现的Email分类中将平均F—score分别提高了12.28%和23.08%,从而达到69.33%的分类平均F—score.

关 键 词:特征表示  分类
文章编号:1000-1220(2006)05-0930-03
收稿时间:02 1 2005 12:00AM
修稿时间:2005-02-01

Hybrid Feature Definition Method for Email Classification
YU Kun,GENG Huan-tong,KOU Su-ling,ZHANG Ting-hui,CAI Qing-sheng.Hybrid Feature Definition Method for Email Classification[J].Mini-micro Systems,2006,27(5):930-932.
Authors:YU Kun  GENG Huan-tong  KOU Su-ling  ZHANG Ting-hui  CAI Qing-sheng
Affiliation:Department of Computer Science and Technology University of Science and Technology, Hefei 230027, China
Abstract:The feature definition method based on word frequency cannot represent the topic of an email precisely, and then results in low F-score in email classification. To settle this problem, this paper presents a hybrid feature definition method for Email classification. It adds knowledge-based features in bag-of-word features to improve F-score in email classification. Experimental results show that based on this method, the average F-score of Email classification with Email subject is increased by 12.28% and 23.08% compared with word frequency based feature definition method and knowledge-based feature definition method, respectively, and then achieves 139.33% consequently.
Keywords:Email
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号