首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
通过实验对SVM、KNN文本分类算法进行了深入探讨。基于KNN和SVM算法,提出了一种SVM.KNN算法。该算法结合KNN和SVM两种分类器,并通过分类预测概率的反馈和修正来提高分类器性能。在CWT100G中文网页分类测试系统中,对SVM.KNN算法的实际效果进行了测试和算法性能验证。  相似文献   

2.
基于SVM的哈萨克语文本分类   总被引:1,自引:0,他引:1  
介绍了支持向量机(SVM)和k-最近邻法(kNN)分类算法的思想和两种哈萨克语特征提取方法。对SVM、kNN和Bayes算法在哈萨克语文本分类的实验进行了比较。实验结果表明:在处理哈萨克语文本分类问题上,SVM较kNN和Bayes有较好的分类效果。由于哈萨克文单词的语素和构形的特点,若对哈萨克语词缀进行切分,则会降低文本分类的准确率和查全率。  相似文献   

3.
本文将KD-Tree应用到KNN文本分类算法中,先对训练文本集建立一个KD-Tree,然后在KD-Tree中搜索测试文本的所有祖先节点文本,这些祖先节点文本集合就是待测文本的最邻近文本集合,与测试文本有最大相似度的祖先的文本类型就是待测试文本的类型,这种算法大大减少了参与比较的向量文本数目,时间复杂度仅为O(log2N)。实验表明,改进后的KNN文本分类算法具有比传统KNN文本分类法更高的分类效率。  相似文献   

4.
基于SVM和KNN算法的科技文献自动分类研究   总被引:1,自引:0,他引:1  
本文着重对SVM和KNN分类法进行分析,并结合实际的文档集测试了SVM和KNN分类法的性能,给出了实验数据。  相似文献   

5.
基于概念层次的英文文本自动分类研究   总被引:2,自引:0,他引:2  
该文意在设计并且实现一个针对英文文本的自动归类以及检索系统,重点在于提高分类方法的准确率。自动文本分类系统中,一般来说文本内容是以N维特征空间的形式存储的,所以特征提取的方法和准确率极大地影响到分类结果的正确率。传统方法是基于词形的,并不考察词语的意义,忽略了同一意义下词形的多样性、不确定性以及词义之间的关系,尤其是上下位关系。该文提出的方法,在向量空间模型(VSM)的基础上,以“概念”为基础,同时考虑词义的上位关系,使得训练过程中可以从词语中提炼出更加概括性的信息,从而达到提高分类精度的目的。  相似文献   

6.
何峰  林亚丽 《福建电脑》2005,(1):4-5,16
介绍基于KNN的文本分类方法,分析KNN方法实质,基于隐含语义、特征聚合、强化文本中语义链属性因子和与检索相结合的迭代近邻法四种改进方法进行比较,给出涉及的关键技术。  相似文献   

7.
以氨基酸含量为特征向量,研究了SVM和KNN预测蛋白质耐热性的准确度。结果表明,基于SVM的分类效果较好,其局部预测率和全局预测率分别为82.4%和83.4%;而基于KNN方法的局部预测率和全局预测率分别为77.6%和79.9%。两种方法的预测率均表明氨基酸含量是影响蛋白质耐热性的主要因素。  相似文献   

8.
网络信息规模随着互联网与信息技术的发展而不断增大,在这些信息中,各种类型的文本信息占据了相当大的比重。因此,高效、快速地对文本信息进行分类是网络信息处理中一个关键问题。本文分析比较了SVM算法、朴素Bayes算法和KNN算法3种算法,并通过实验证明了这3种算法在中文文本分类中的效果。实验结果表明:SVM算法比KNN算法和朴素Bayes算法更优,SVM算法是一种较好的中文文本分类算法。  相似文献   

9.
基于SVM的维吾尔文文本分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景。随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型表示下的高维性,本文采用词干提取和χ2统计量相结合的方法对表示空间进行降维。采用SVM算法构造了维吾尔文文本分类器。针对维吾尔文文本分类语料进行的实验结果表明,SVM分类器的MacroF1值达到了84.6%,明显好于kNN方法。  相似文献   

10.
SVM用于文本分类的适用性   总被引:3,自引:0,他引:3       下载免费PDF全文
本文从统计的角度描述了文本分类的关键性质,给出了相应的文本文档集的统计分类模式,并将其与支持向量机的模型结合,说明了为什么支持向量机(SVM)能够很好地进行文本分类。本文主要是从理论角度说明SVM用于文本分类的适用性,模型构造简单,并且是高度抽象、无噪音的。  相似文献   

11.
随着信息技术的发展,文本信息数据正在爆炸式增长,从众多的文本数据中有效地获取有用信息是一个值得研究的问题。针对该任务提出基于层次特征提取的文本分类模型,考虑文本中句子级别的语义内容以及文本级别的语义内容,依次使用两种神经网络模型建模句子级的语义内容和文本级的语义内容,从而得到关于文本的全面特征,进而基于此特征对文本进行分类。实验结果表明,该方法能够更加准确地提取文本的特征,具有更高的分类准确度。  相似文献   

12.
为了提高文本情感分类准确率,提出基于多约简Fisher向量空间模型和支持向量机的文本情感分类算法。该算法首先采用Fisher判别准则提取TF-IDF特征向量,然后依据低维文档向量空间模型间的相似度对文档进行聚类,减少文档的数目。该算法从维度和数量两个方面对文档的向量空间模型进行约简,以期提高支持向量机的训练速度和分类性能。仿真实验结果表明,该算法具有良好的召回率和分类准确率。  相似文献   

13.
特征稀疏是对传统文本分类的一个巨大的挑战。基于LDA模型,提出一种特征扩展的短文本分类模型。该模型在正文语料的基础上加入标题语料的主题分布,并进行整合,得到每个文本的主题分布。使用SVM分类器进行分类。实验结果表明,与正文语料进行文本分类相比,所提模型对文本分类效果较好。  相似文献   

14.
以解决公安部门犯罪信息文本数据自动分类问题为应用目的,通过对已有多层文本自动分类技术的研究,给出多层文本分类器的过程模型,并对模型中的特征提取方法进行深入研究,提出改进后的特征提取权重计算公式。实验证明,该分类器能够有效解决犯罪信息文本的自动分类问题。  相似文献   

15.
E研究中学科交叉广泛存在,因此对多学科的电子文献进行自动分类非常必要。针对E研究中的电子文献特征维数较高的特点,以上海高校比较语言学E-研究院为例,提出了一种可逐层降低分类难度、分而治之的层次化自动分类方法。该方法首先利用不需要矩阵运算的几何分类算法对文本向量进行初步分类;然后,利用fisher的线性判别方法将向量投影一维特征空间;最后,在一维空间中运用NBayes决策进行平均错误率最小的文献分类。实验结果表明该分类方法具有较好的精确性和速度:在闭集测试和开集测试中,均获得了较高的分类准确率、召回率及F1值,文献分类平均耗时0.29 s。以上工作为E研究提供了智能化支持。  相似文献   

16.
基于模糊综合评判的文本自动分类算法   总被引:2,自引:0,他引:2  
文本分类在文献检索、信息过滤、数据组织、信息管理等领域中应用十分广泛。本文给出了一种基于模糊综合评判的文本自动分类算法,该算法以文本分词技术作为基础,以类间词频方差作为评判因素的选择依据,通过预定义类中关键词的词频均值高低构造评判矩阵,以最大隶属度作为评判原则。文中详细描述了算法的理论依据、评判因数的选择、评判矩阵的构造及分类算法。实验结果表明本文提出的分类算法具有相当的应用价值。  相似文献   

17.
针对海量学科试题所引发的试题管理混乱现象,提出一种基于SVM的学科试题自动分类法。对学科语料进行分词、去停用词和统一相似词等预处理操作;采用TextRank算法对学科语料进行权重赋值,将语料文本向量化;用SVM中的Linear核函数训练语料得到分类器。用语料库中的12类单选题进行测试,整体分类的准确率、召回率、F1值均达到97%以上。结果表明,该分类法可以有效地分类试题文本。  相似文献   

18.
工业铝合金铸件在铸造过程中受各种因素的影响,存在不同程度的缺陷.工业上仍然采用人工方式对这些缺陷分级.这种人工的分级方法需要占用大量时间,并带有很强的主观性.为解决这一问题,本文提出了一种自动分级方法.首先对任意电压下的待测扫描图像,应用多元线性回归方法对电压归一化,自动提取特征向量;然后应用支持向量机(SVM)算法进行特征融合,确定判别函数,从而对扫描图像分级.实验结果表明,该方法有较高的正确率,并在工程实践中获得了较好的效果.  相似文献   

19.
针对传统的分类算法不能满足多层次的工程信息分类,提出一种基于词频逆文档频率TFIDF(term frequency inverse document frequency)和分类树的多层工程信息分类法。通过对每条工程信息生成多层分类树,在不同层次构建TFIDF矩阵,减少冗余计算。通过计算树结点中储存的相似度,进行判决得出分类结果。与传统单层分类算法相比,基于树的判决方法可以对类进行多级划分、多类属划分,且计算时间仅为单层分类的59%,并获得了95.1%的召回率和97.4%的准确率,具有很好的灵活性与鲁棒性。实验结果证实了算法的有效性。  相似文献   

20.
Web文本分类及其阻塞减少策略   总被引:1,自引:0,他引:1  
Web挖掘中,根据内容对Web文档进行分类是至关重要的一步.在Web文档分类中一种通常的方法是层次型分类方法,这种方法采用自顶向下的方式把文档分类到一个分类树的相应类别.然而,层次型分类方法在对文档进行分类时经常产生待分类的文档在分类树的上层分类器被错误地拒绝的现象(阻塞).针对这种现象,采用了以分类器为中心的阻塞因子去衡量阻塞的程度,并介绍了两种新的层次型分类方法,即基于降低阈值的方法和基于限制投票的方法,去改善Web文档分类中文档被错误阻塞的情况.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号