首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
支持向量机是在统计学习理论基础上发展起来的新一代学习算法,适宜构造高维有限样本模型,具有很好的分类精度和泛化性能。文中介绍了中文文本分类过程,将支持向量机应用于中文文本分类模型中,对分类器参数选择进行了分析和讨论。实验分析表明,该系统在较小训练集条件下可以取得较好的分类效果。  相似文献   

2.
支持向量机的中文文本分类研究   总被引:9,自引:0,他引:9  
支持向量机是一种基于统计学习理论的新型机器学习方法,在文本分类领域取得了很好的效果。使用支持向量机进行了文本分类的研究,实现了一个中文文本自动分类系统,并给出了实验结果。  相似文献   

3.
基于支持向量机的中文网页自动分类   总被引:5,自引:0,他引:5  
贾泂  梁久祯 《计算机工程》2005,31(10):145-147
研究了支持向量机在中文网页分类中的应用,给出了基于关键词的中文网页特征提取和选择方法,阐述了统计学习理论中的支持向理机模型及其在分类问题应用中的特点,给出了设计支持向量机分类器的二次规划学习算法。  相似文献   

4.
文本蕴涵关系研究的主要目的是在建立通用文本推理框架的同时,解决自然语言语义表达的多样性问题。将中文文本蕴涵关系识别问题归结为一种分类问题,进而基于支持向量机构造分类模型,对中文文本对间的语义关系进行分类;主要采用统计、词汇语义以及句法相关的分类特征。实验结果表明基于支持向量机的多分类器可以有效地对中文文本蕴涵关系进行识别。  相似文献   

5.
《软件》2019,(9):71-74
在文本分类领域,中文文本需要经过数据处理,将文档表达成计算机可以理解并处理的信息。本文采用TF-IDF作为文本表示方法,针对中文文章的多分类问题,对传统支持向量机进行改进,提出了一种基于特征选择的多类支持向量机分类方法。在中文文章数据集的对比实验结果表明,本文的方法在多分类性能上较优于其他模式识别方法。  相似文献   

6.
针对基于支持向量机的Web文本分类效率低的问题,提出了一种基于支持向量机Web文本的快速增量分类FVI-SVM算法。算法保留增量训练集中违反KKT条件的Web文本特征向量,克服了Web文本训练集规模巨大,造成支持向量机训练效率低的缺点。算法通过计算支持向量的共享最近邻相似度,去除冗余支持向量,克服了在增量学习过程中不断加入相似文本特征向量而导致增量学习的训练时间消耗加大、分类效率下降的问题。实验结果表明,该方法在保证分类精度的前提下,有效提高了支持向量机的训练效率和分类效率。  相似文献   

7.
基于主动学习支持向量机的文本分类   总被引:2,自引:0,他引:2       下载免费PDF全文
提出基于主动学习支持向量机的文本分类方法,首先采用向量空间模型(VSM)对文本特征进行提取,使用互信息对文本特征进行降维,然后提出主动学习算法对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

8.
针对传统金融分析报告分类效率低的问题,提出基于支持向量机的中文文本分类技术来对金融分析报告进行分类,该分类技术采用中科院提供的中文分词系统以及使用两种特征选择算法相结合进行分词和特征选择,并且提出针对TF/IDF权重计算的改进方法。该分类技术选择支持向量机作为分类算法,通过开源的支持向量机对样本进行训练和测试。实验结果表明,采用中文文本分类技术对金融分析报告按照行业进行分类能够满足金融机构的使用需求。  相似文献   

9.
文本自动分类关键技术研究   总被引:1,自引:0,他引:1  
为了提高文本自动分类的准确率,本文在分析文本分类预处理阶段的中文分词、特征提取、向量空间模型、web结构挖掘技术等基础上,对相关技术进行了的改进,并设计基于支持向量机文本分类器(UJS-Classifier)实现了最终的文本分类.根据测试语料分别对中文分词模块和网页文本分类模块性能进行测试,实验结果表明UJS-Classifier在分词的歧义切分、网页分类的性能及准确率都有一定的提高.  相似文献   

10.
一种改进的支持向量机的文本分类算法   总被引:16,自引:11,他引:5  
在文本分类中,应用支持向量机(SVM)算法能使分类在小样本的条件下具有良好的泛化能力.但支持向量机的参数取值决定了其学习性能和泛化能力.为提高支持向量机算法的性能,提出了一种采用免疫算法对支持向量机参数进行优化的文本分类算法(IA-SVM).算法减少了对支持向量机参数选择的盲目性,提高了SVM的预测精度.实验表明,IA-SVM算法在文本分类问题上明显提高了分类正确牢,学习速度也有提高.  相似文献   

11.
刘美茹 《计算机工程》2007,33(15):217-219
文本分类技术是文本数据挖掘的基础和核心,是基于自然语言处理技术和机器学习算法的一个具体应用。特征选择和分类算法是文本分类中两个最关键的技术,该文提出了利用潜在语义索引进行特征提取和降维,并结合支持向量机(SVM)算法进行多类分类,实验结果显示与向量空间模型(VSM)结合SVM方法和LSI结合K近邻(KNN)方法相比,取得了更好的效果,在文本类别数较少、类别划分比较清晰的情况下可以达到实用效果。  相似文献   

12.
支持向量机(Support Vector Machines,简称SVM)根据有限的样本信息在对文本分类的精度和学习能力之间,相比其他的文本分类算法寻求了最佳折中,从而获得了较好的推广能力。而SVM是从线性可分情况下的最优分类面发展而来的,因此对于线性可分文本具有更好的分类效果。给出了一种效率较高的线性可分文本的SVM算法,它在训练的时间复杂度上具有明显的改进,从而可以提高训练效率。结果表明:改进后的SVM算法相比以前的算法大大提高了运行效率。  相似文献   

13.
针对当前医院护理不良事件上报的内容多为非结构化文本数据,缺乏合理明确的分类,人工分析难度大、人为因素多、存在漏报瞒报、人为降低事件级别等问题,提出一种基于字符卷积神经网络CNN与支持向量机SVM的中文护理不良事件文本分类模型。该模型通过构建字符级文本词汇表对文本进行向量化,利用CNN对文本进行抽象的特征提取,并用SVM分类器实现中文文本分类。与传统基于TF-IDF的SVM、随机森林等多组分类模型进行对比实验,来验证该模型在中文护理不良事件文本分类中的分类效果。  相似文献   

14.
This paper presents an innovative solution to model distributed adaptive systems in biomedical environments. We present an original TCBR-HMM (Text Case Based Reasoning-Hidden Markov Model) for biomedical text classification based on document content. The main goal is to propose a more effective classifier than current methods in this environment where the model needs to be adapted to new documents in an iterative learning frame. To demonstrate its achievement, we include a set of experiments, which have been performed on OSHUMED corpus. Our classifier is compared with Naive Bayes and SVM techniques, commonly used in text classification tasks. The results suggest that the TCBR-HMM Model is indeed more suitable for document classification. The model is empirically and statistically comparable to the SVM classifier and outperforms it in terms of time efficiency.  相似文献   

15.
直播系统中用户聊天内容的实时拦截具有非常重大的意义,为了提高分类的准确率和效率,提出了一种基于Doc2Vec与SVM结合的文本分类模型对聊天内容分类,判断聊天内容是否应该被拦截.首先使用Doc2Vec模型将聊天内容表示成密集数值向量的形式,第二部分使用SVM分类器进行分类.通过实验表明,该模型有效地减少了文本表示的维度,提高了训练效率,而且具有的97%的准确率和89.82%召回率,性能优于朴素贝叶斯和基于Doc2Vec的Logistic模型.  相似文献   

16.
SVM在文本分类中的应用是近年来文本分类领域重要的进展之一。许多实验表明,SVM在文本分类中比其他的机器学习算法表现出更高的分类精度,但在大规模数据上的收敛速度较慢,成为SVM在实际应用中的一大缺点。球向量机是一种比SVM更快的机器学习方法。本文将BVM应用于文本分类。实验表明,BVM在文本分类中的应用具有与SVM相当的精 度,而且比SVM有更少的训练时间。  相似文献   

17.
基于SVM的中文组块分析   总被引:20,自引:5,他引:20  
基于SVM(support vector machine)理论的分类算法,由于其完善的理论基础和良好的实验结果,目前已逐渐引起国内外研究者的关注。和其他分类算法相比,基于结构风险最小化原则的SVM在小样本模式识别中表现较好的泛化能力。文本组块分析作为句法分析的预处理阶段,通过将文本划分成一组互不重叠的片断,来达到降低句法分析的难度。本文将中文组块识别问题看成分类问题,并利用SVM加以解决。实验结果证明,SVM算法在汉语组块识别方面是有效的,在哈尔滨工业大学树库语料测试的结果是F=88.67%,并且特别适用于有限的汉语带标信息的情况。  相似文献   

18.
短文本特征稀疏、上下文依赖性强的特点,导致传统长文本分类技术不能有效地被直接应用。为了解决短文本特征稀疏的问题,提出基于Sentence-LDA主题模型进行特征扩展的短文本分类方法。该主题模型是隐含狄利克雷分布模型(Latent Dirichlet Allocation, LDA)的扩展,假设一个句子只产生一个主题分布。利用训练好的Sentence-LDA主题模型预测原始短文本的主题分布,从而将得到的主题词扩展到原始短文本特征中,完成短文本特征扩展。对扩展后的短文本使用支持向量机(Support Vector Machine, SVM)进行最后的分类。实验显示,与传统的基于向量空间模型(Vector Space Model,VSM)直接表示短文本的方法比较,本文提出的方法可以有效地提高短文本分类的准确率。  相似文献   

19.
云制造资源的有效分类是资源服务化封装及后续制造资源服务检索的前提条件,针对高维度特征、多类别加工设备资源的分类问题。依据描述云制造加工设备资源属性特征的XML文档,提取资源属性特征并进行向量化处理。基于SVM算法建立制造资源自动分类预测算法模型,引入SMO算法提升SVM分类算法的分类效率,并利用网格搜索寻求SVM算法的最优参数从而优化SVM算法效果。最后基于某设备资源集的原始设备信息对不同加工设备进行分类实验,验证了该分类模型的有效性以及可行性。  相似文献   

20.
一种新的基于SVM-KNN的Web文本分类算法   总被引:1,自引:0,他引:1  
在应用基本的支持向量机算法的基础上,提出了一种新的Web文本分类算法。将SVM算法和KNN算法进行结合,提出了基于SVM-KNN的Web文本分类算法,用KNN算法来弥补传统SVM算法的不足,以简单的思想和较小的实现代价对传统SVM算法进行有效的改进,收到了良好的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号