首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 56 毫秒
1.
随着网络技术与数字图书馆的迅猛发展,在线文档迅速增加,自动文本分类已成为处理和组织大量文档数据的关键技术。kNN方法作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用。本文介绍了kNN分类算法的思想以及两种不同的决策规则,并通过实现的文本分类系统对基于离散值规则的kNN方法和基于相似度加权的kNN方法进行实验比较。实验结果表明。基于相似度加权的kNN方法的分类性能要优于基于离散值规则的kNN方法。  相似文献   

2.
随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于Χ^2统计量能很好地体现词和类别之闻的相关性,因此成为特征选择中常用的评估函数.本文分析了Χ^2统计量在特征选择和分类决策阶段的性质,提出了一种新的基于Χ^2统计量的相似度定义,并结合基于两次类别判定的快速搜索算法,改进了传统的kNN算法,实验结果显示基于Χ^2统计量的改进kNN文本分类算法能大大减少kNN算法的分类时间,并提高了kNN算法的准确率和召回率.  相似文献   

3.
基于隐含语义的kNN文本分类研究   总被引:4,自引:0,他引:4  
介绍了传统的kNN的文本分类方法,分析其实质,指出其不足,提出了一种基于隐含语义的改进方案,并结合实际给出实验结果。  相似文献   

4.
基于区域划分的kNN文本快速分类算法研究   总被引:1,自引:1,他引:0  
胡元  石冰 《计算机科学》2012,39(10):182-186
kNN方法作为一种简单、有效、非参数的分类方法,在文本分类中广泛应用。为提高其分类效率,提出一种基于区域划分的kNN文本快速分类算法。将训练样本集按空间分布情况划分成若干区域,根据测试样本与各区域之间的位置关系快速查找其k个最近邻,从而大大降低kNN算法的计算量。数学推理和实验结果均表明,该算法在确保kNN分类器准确率不变的前提下,显著提高了分类效率。  相似文献   

5.
基于密度的kNN文本分类器训练样本裁剪方法   总被引:38,自引:2,他引:36  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。kNN方法作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用。但是这种方法计算量大,而且训练样本的分布不均匀会造成分类准确率的下降。针对kNN方法存在的这两个问题,提出了一种基于密度的kNN分类器训练样本裁剪方法,这种方法不仅降低了kNN方法的计算量,而且使训练样本的分布密度趋于均匀,减少了边界点处测试样本的误判。实验结果显示,这种方法具有很好的性能。  相似文献   

6.
模糊聚类分析在文本分类中的应用   总被引:9,自引:2,他引:9  
文章用模糊聚类分析的方法对文本进行分类,选择了5种语体,即古典白话、古龙武侠、金庸武侠、外国翻译及现代小说等进行实验,获得了较为稳定的结果。  相似文献   

7.
随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于χ2统计量能很好地体现词和类别之间的相关性,因此成为特征选择中常用的评估函数.本文分析了χ2统计量在特征选择和分类决策阶段的性质,提出了一种新的基于χ2统计量的相似度定义,并结合基于两次类别判定的快速搜索算法,改进了传统的kNN算法.实验结果显示基于χ2统计量的改进kNN文本分类算法能大大减少kNN算法的分类时间,并提高了kNN算法的准确率和召回率.  相似文献   

8.
模糊聚类在中文文本分类中的应用研究   总被引:4,自引:0,他引:4  
将基于等价关系的模糊聚类技术应用于中文文本分类,提出了基于模糊聚类的中文文本分类算法ATCFC。该算法利用基于二级字索引的正向最大匹配算法对文本分词,建立模糊特征向量空间模型,使用贴近度法刻划文本间的相似度。利用算法ATCFC对文本集合进行动态聚类实验,实验结果表明算法ATCFC对于中文文本分类是可行、有效的。  相似文献   

9.
文本特征维数通常高达几万且特征之间存在大量冗余和不相关信息,从而导致传统的分类方法效率低、分类准确率低.为了提高文本分类的快速性和准确性,提出了一种遗传算法(GA)和支持向量机(SVM)相结合的文本分类方法.把文本特征组合看作遗传算法中一个染色体,并进行二进制编码,将支持向量机分类准确率作为遗传算法的适应度函数,对每一...  相似文献   

10.
kNN算法是一种简单、有效的文本分类方法,并在文本分类中得到广泛的应用。但是kNN计算开销较大,而且对处于分类边界的测试文本分类精度较低。本文针对心州算法的缺陷,采用中心文本向量模型和排除算法提高了kNN算法的效率,并且提出了边界文本多k值分类算法提高了边界文本分类的准确率。实验结果表明改进的kNN算法具有较好的性能。  相似文献   

11.
分析了特征选择采用互信息方法时文本分类性能较低的原因,认为与其在特征选择时倾向于选择稀有特征这一缺陷有很大关系。在此基础上,提出了一种基于分散度和平均频度的互信息特征选择方法。实验结果表明,改进后的互信息方法使文本分类性能有明显提高。  相似文献   

12.
基于蚁群遗传算法的中文文本分类中的特征提取   总被引:1,自引:0,他引:1  
针对文本分类中特征提取准确度的问题,分析了中文文本中词长对于表征文本类别的影响,改进了传统的中文文本词条权重计算方法;由于遗传算法用于特征提取时搜索随机性强,没有方向性,故将蚁群算法应用到遗传算法的选择操作中,提出了一种蚁群算法和遗传算法相结合的特征提取方法。实验结果表明,该方法不但可以提高分类的准确率,而且可以减少分类时间,是一种有效的方法。  相似文献   

13.
一种基于关联性的特征选择算法   总被引:1,自引:0,他引:1  
目前在文本分类领域较常用到的特征选择算法中,仅仅考虑了特征与类别之间的关联性,而对特征与特征之间的关联性没有予以足够的重视.提出一种新的基于关联分析的特征选择算法,该方法以信息论量度为基本工具,综合考虑了计算代价以及特征评估的客观性等问题.算法在保留类别相关特征的同时识别并摒弃了冗余特征,取得了较好的约简效果.  相似文献   

14.
不同程度的监督机制在自动文本分类中的应用   总被引:1,自引:0,他引:1  
自动文本分类技术涉及信息检索、模式识别及机器学习等领域。本文以监督的程度为线索,综述了分属全监督,非监督以及半监督学习策略的若干方法-NBC(Naive Bayes Classifier),FCM(Fuzzy C-Means),SOM(Self-Organizing Map),ssFCM(serni-supervised Fuzzy C-Means)gSOM(guided Self-Organizing Map),并应用于文本分类中。其中,gSOM是我们在SOM基础上发展得到的半监督形式。并以Reuters-21578为语料,研究了监督程度对分类效果的影响,从而提出了对实际文本分类工作的建议。  相似文献   

15.
文本分类是在给定的分类体系下,根据文本的内容自动确定文本类别的过程.在文本分类中,特征的提取对于分类的结果相当重要.从特征提取这一阶段出发,提出了一个集成合并的特征提取方法,该方法主要集成多种特征提取方法并合并关系密切的特征,并利用支持向量机SVM(Support Vector Machine)分类的高准确率,能够求出全局最优方法等优点来对得到的特征向量进行分类评估.实验证明,此种特征提取能够降低分类时间和提高分类的准确率.  相似文献   

16.
网络信息浩如烟海又纷繁芜杂,从中掌握最有效的信息是信息处理的一大目标,而文本分类是组织和管理数据的有力手段.由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,具有对许多问题的处理都可以达到较好的结果的优势,将最大熵模型引入到中文文本分类的研究中,并通过使用一种特征聚合的算法改进特征选择的有效性.实验表明与Bayes、KNN和SVM这三种性能优越的算法相比,基于最大熵的文本分类算法可取得较之更优的分类精度.  相似文献   

17.
网络科技资源应用集成环境所汇集到的信息纷繁复杂,使得用户对信息的浏览、检索造成了一定的困难.首先对所有汇集到的信息向量化,然后通过对IF-IDF权重构造函数进行了改良,使其更加适合本项目的实际情况,接着利用粗糙集理论进行属性约简,生成最终的决策表对科技信息进行分类.最终结果证明,提出的分类系统比传统人工分类的效率有较大提高,取得了良好的效果.  相似文献   

18.
如何准确地实现文本的有序组织,是自然语言处理的一个重要研究方向。本文首先介绍了文本分类的研究现状,讨论了基于向量空间模型的分类法的基本思想。在此基础上,通过对文本识别本质的研究,在向量空间模型的基础上,提出一种新的结合了信息相关性分析的文本分类模型ICFM(Information Correlation based Fast text categorization Model),并以实验验证了该模型的性能。  相似文献   

19.
针对传统的特征选择使用阈值过滤导致有效信息丢失的问题,提出一种粗糙集的文本特征选择方法。该方法以核为起点利用特征属性的重要性和依赖性作为启发式信息进行特征选择,使文本的特征维数得到一定程度的降低。实验表明,此算法不仅易于实现而且能够有效降低特征数目,提高分类效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号