首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于区域划分的kNN文本快速分类算法研究   总被引:1,自引:1,他引:0  
胡元  石冰 《计算机科学》2012,39(10):182-186
kNN方法作为一种简单、有效、非参数的分类方法,在文本分类中广泛应用。为提高其分类效率,提出一种基于区域划分的kNN文本快速分类算法。将训练样本集按空间分布情况划分成若干区域,根据测试样本与各区域之间的位置关系快速查找其k个最近邻,从而大大降低kNN算法的计算量。数学推理和实验结果均表明,该算法在确保kNN分类器准确率不变的前提下,显著提高了分类效率。  相似文献   

2.
基于相邻字对信息的中文文档分类研究   总被引:2,自引:0,他引:2  
本文首次提出利用相邻字对信息进行中文文档分类,使中文文档分类摆脱了对词典和切词处理的依赖,实现中文文档分类的领域无关性和时间无关性性。分别利用Naive Bayes和kNN分类方法建立了基于相邻字对信息的中文文档分类系统。初步的测试结果表明本文文档系统具有和同类文档分类系统相当的性能。  相似文献   

3.
基于密度的kNN文本分类器训练样本裁剪方法   总被引:38,自引:2,他引:36  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。kNN方法作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用。但是这种方法计算量大,而且训练样本的分布不均匀会造成分类准确率的下降。针对kNN方法存在的这两个问题,提出了一种基于密度的kNN分类器训练样本裁剪方法,这种方法不仅降低了kNN方法的计算量,而且使训练样本的分布密度趋于均匀,减少了边界点处测试样本的误判。实验结果显示,这种方法具有很好的性能。  相似文献   

4.
基于N-gram信息的中文文档分类研究   总被引:12,自引:3,他引:9  
传统文档分类系统都是基于文档的词属性,分类过程需要庞大的词典支持和复杂的切词处理。本文研究基于N-gram信息的中文文档分类,使中文文档分类系统摆脱对词典和切词处理的依赖,从而实现中文文档分类的领域无关性和时间无关性。利用kNN分类方法,实现了一个基于N-gram信息的中文文档分类系统。测试结果表明该文档分类系统具有和其它同类文档分类系统相当的性能。  相似文献   

5.
基于隐含语义的kNN文本分类研究   总被引:4,自引:0,他引:4  
介绍了传统的kNN的文本分类方法,分析其实质,指出其不足,提出了一种基于隐含语义的改进方案,并结合实际给出实验结果。  相似文献   

6.
基于主动学习的文档分类   总被引:3,自引:0,他引:3  
In the field of text categorization,the number of unlabeled documents is generally much gretaer than that of labeled documents. Text categorization is the problem of categorization in high-dimension vector space, and more training samples will generally improve the accuracy of text classifier. How to add the unlabeled documents of training set so as to expand training set is a valuable problem. The theory of active learning is introducted and applied to the field of text categorization in this paper ,exploring the method of using unlabeled documents to improve the accuracy oftext classifier. It is expected that such technology will improve text classifier's accuracy through adopting relativelylarge number of unlabelled documents samples. We brought forward an active learning based algorithm for text categorization,and the experiments on Reuters news corpus showed that when enough training samples available,it′s effective for the algorithm to promote text classifier's accuracy through adopting unlabelled document samples.  相似文献   

7.
基于kNN算法的异常行为检测方法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
卢鋆  吴忠望  王宇  卢昱 《计算机工程》2007,33(7):133-134
阐述了异常行为检测的相关概念,介绍了kNN算法,探讨了异常行为检测与分类技术的关系。结合kNN算法的优点以及异常行为检测与分类的相似性,提出了基于kNN算法的异常行为检测方法,给出了其计算方法,并确定了检测的过程,分析了该方法的特点和优势。基于kNN算法的异常行为检测方法通过不断的自学习,会成为信息安全的一道有效防线。  相似文献   

8.
徐晓丹  姚明海  刘华文  郑忠龙 《计算机科学》2015,42(5):106-108, 131
多标签学习已成为当前机器学习的研究热点.为了提高分类性能,对训练集中的噪声数据进行预处理,提出一种基于k近邻(kNN)的多标签分类去噪方法:对现有的多标签数据集进行分析后获得近似正态分布的特征,通过将噪声标记改为其k近邻标记的方法,滤去部分噪声信息,从而得到相对高质量的数据集.在MULAN平台上使用多个数据集对6种多标签分类算法进行了噪声去除前后的对比测试,实验结果表明,多标签的预处理方法有效提高了分类器的性能.此方法对于分布特征明显的数据集具有较好的适用性.  相似文献   

9.
kNN算法是一种简单、有效的文本分类方法,并在文本分类中得到广泛的应用。但是kNN计算开销较大,而且对处于分类边界的测试文本分类精度较低。本文针对心州算法的缺陷,采用中心文本向量模型和排除算法提高了kNN算法的效率,并且提出了边界文本多k值分类算法提高了边界文本分类的准确率。实验结果表明改进的kNN算法具有较好的性能。  相似文献   

10.
模糊kNN在文本分类中的应用研究   总被引:1,自引:0,他引:1  
自动文本分类是根据已经分配好类标签的训练文档集,来对新文档分配类标签.针对模糊kNN算法用于文本分类的性能进行了一系列的实验研究与分析.在中英文两个不同的语料集上,采用四种著名的文本特征选择方法进行特征选择,对改进的模糊kNN方法与经典kNN及目前广泛使用的基于相似度加权的kNN方法进行实验比较.结果表明,在不同的特征选择方法下,该算法均能削弱训练样本分布的不均匀性对分类性能的影响,提高分类精度,并且在一定程度上降低对k值的敏感性.  相似文献   

11.
基于k-最近邻图的小样本KNN分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于k-最近邻图的小样本KNN分类算法。通过划分k-最近邻图,形成多个相似度较高的簇,根据簇内已有标记的数据对象来标识同簇中未标记的数据对象,同时剔除原样本集中的噪声数据,从而扩展样本集,利用该新样本集对类标号未知数据对象进行类别标识。采用标准数据集进行测试,结果表明该算法在小样本情况下能够提高KNN的分类精度,减小最近邻阈值k对分类效果的影响。  相似文献   

12.
目前有很多粗糙集的推广模型通过引入参数的方法处理含有噪音的实际问题。基于粗糙集推广模型的约简算法可以发现保持信息含量不变的最小属性子集,但是其明显的不足是计算不同参数上的约简时,每次都要从头开始执行。将嵌套结构的理论结果应用于k-近邻模糊粗糙集的快速约简算法设计中,并利用嵌套结构,设计了一个基于已有约简的快速约简算法。该算法的特点是在参数改变时,不必重新运行经典的算法,而是利用已有的约简来计算新的约简。数值实验验证了快速约简算法可以显著地节省运行时间,表明了该算法的可行性和有效性。  相似文献   

13.
k近邻分类(kNN)是一种简单而有效的非参数分类算法, 但存在着参数需要人工确定, 没有显式构建分类模型造成存储空间大、分类效率低, 且易受到“维灾”效应影响等缺点. 针对这些缺点, 提出一种高效的近邻分类新方法, 构造了两个新的近邻分类器. 新方法使用由K均值聚类产生的优化的簇原型集合为分类模型, 减少了存储空间的同时提高了分类效率; 提出三种类重叠分析策略并引入模糊基准度量以减轻维灾影响. 以该分类模型学习方法为基础, 提出一种新的kNN分类器和组合朴素贝叶斯的新分类器, 算法涉及的参数都可以自动确定. 在人工和现实数据集上进行的实验表明, 新分类器具有良好的分类效率和分类准确率.  相似文献   

14.
图模型是文本分类中一种比较新的方法,它可以很好地表达词与词之间的关联信息,弥补了传统的以向量空间为基础的文本分类方法的不足。本文介绍了图模型的定义、权值的计算、图的建立方法及分类方法。实验表明,这种方法是有效可行的。  相似文献   

15.
Fisher鉴别特征的最近邻凸包分类   总被引:2,自引:0,他引:2  
基于Fisher准则的特征提取方法是模式识别技术的重要分支,其中,Foley-Sammon变换和具有统计不相关性的最佳鉴别变换是这一技术典型代表,本文将它们与一种新型分类器一最近邻凸包分类器相结合,从而实现Fisher鉴别特征的有效分类。最近邻凸包分类器是一类以测试样本点到各类训练集生成类别凸包的距离为分类判别依据的模式分类新方法,具有非线性性,无参性,多类别适用性等特点。实验证实了本文方法的有效性。  相似文献   

16.
针对现有的高维空间近似k近邻查询算法在数据降维时不考虑维度间关联关系的问题, 首次提出了基于维度间关联规则进行维度分组降维的方法.该方法通过将相关联维度分成一组进行降维来减少数据信息的损失, 同时针对Hash降维后产生的数据偏移问题, 设置了符号位并基于符号位的特性对结果进行精炼; 为提高维度间关联规则挖掘的效率, 提出了一种新的基于UFP-tree的频繁项集挖掘算法.通过将数据映射成二进制编码来进行查询, 有效地提高了近似k近邻查询效率, 同时基于信息熵筛选编码函数, 提高了编码质量; 在查询结果精炼的过程, 基于信息熵对候选集数据的编码位进行权重的动态设定, 通过比较动态加权汉明距离和符号位碰撞次数返回最终近似k近邻结果.理论和实验研究表明, 所提方法能够较好地处理高维空间中近似k近邻查询问题.  相似文献   

17.
基于核方法的XML文档自动分类   总被引:3,自引:0,他引:3  
杨建武 《计算机学报》2011,34(2):353-359
支持向量机(SVM)方法通过核函数进行空间映射并构造最优分类超平面解决分类器的构造问题,该方法在文本自动分类应用中具有明显优势.XML 文档是文本内容信息与结构信息的综合体,作为一种新的数据形式,成为当前的研究热点.文中以结构链接向量模型为基础,研究了基于支持向量机的XML文档自动分类方法,提出了适合XML文档分类的核...  相似文献   

18.
崔宾阁  孟翱翔 《计算机科学》2013,40(10):274-278
针对现有的区域生长算法没有考虑到区域之间最近邻关系的有向性这一问题,提出了基于最近邻有向图的遥感图像快速分割算法.首先使用分水岭算法对遥感图像进行初次分割,然后在分割得到的区域对象基础上建立最近邻有向图.在区域生长过程中,沿着有向边形成的路径合并相邻的区域对象.当所有合并完成后重构区域对象的最近邻有向图,进行下一轮合并,直至区域数目不再变化.该方法避免了每次合并一个区域对象就重新计算新的邻居关系,从而降低了计算复杂度.实验结果表明,该方法分割结果比较合理,与其他几种方法相比运行效率明显提高.  相似文献   

19.
在基于核函数的最小距离分类方法对数据集进行分类过程中,目标函数的核函数参数选择直接影响分类器的分类成功率。该文提出一种选择应用目标函数来选择适当参数的方法。实验结果表明,与单纯的基于核的最小距离分类法相比,选择最优核函数的参数可以提高分类器的成功率。  相似文献   

20.
陈杰  陈彩  梁毅 《计算机系统应用》2017,26(11):159-164
文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上较其他两种方法均有所提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号