首页 | 本学科首页   官方微博 | 高级检索  
     

基于词典和遗传算法的文本特征获取方法
引用本文:覃晓,元昌安,彭昱忠,王艳. 基于词典和遗传算法的文本特征获取方法[J]. 计算机工程与设计, 2008, 29(21)
作者姓名:覃晓  元昌安  彭昱忠  王艳
作者单位:1. 广西师范学院信息技术系,广西南宁,530001;广西师范学院数学与计算机科学系,广西南宁,530001
2. 广西师范学院信息技术系,广西南宁,530001
基金项目:国家重点基础研究发展计划(973计划),广西自然科学基金,广西教育厅科研项目
摘    要:Web文本特征获取是Web挖掘中重要而关键的前提工作,传统文本特征获取方法由于在确定文本词条的权重方面做得不够准确,从而直接影响了文本分类算法的精确度.为此,提出一种基于主题词典和遗传算法的文本特征获取方法(dic.tionary and GA-based feature selection algorithms,DGFSA),利用主题词典来调整词条权重,从而获取文本特征向量.实验结果表明,DGFSA比传统算法在文本分类的准确率和特征词的约简率方面分别提高了28.4%和16.3%.

关 键 词:主题词典  遗传算法  广西特征提取  文本分类

Text feature selection algorithms based on dictionary and genetic algorithms
QIN Xiao,YUAN Chan-gan,PENG Yu-zhong,WANG Yan. Text feature selection algorithms based on dictionary and genetic algorithms[J]. Computer Engineering and Design, 2008, 29(21)
Authors:QIN Xiao  YUAN Chan-gan  PENG Yu-zhong  WANG Yan
Affiliation:QIN Xiao1,2,YUAN Chang-an1,PENG Yu-zhong1,WANG Yan1(1.Department of Information , Technology,Guangxi Teachers Education University,Nanning 530001,China,2.Department of Mathematics , Computer Science,China)
Abstract:Web text feature selection is a key and important pre-step in web mining.Traditional methods can not determine the exact weight of words and reduce the accuracy of text classification.To solve this problem,a text feature selection methods based on theme dictionary and genetic algorithm(dictionary and GA-based feature selection algorithms,DGFSA) are proposed,which using the theme dictionary to adjust the weights and then getting text feature vector.By the comparing experiment shows that the accuracy of text ...
Keywords:VSM
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号