首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
基于主动学习支持向量机的文本分类   总被引:2,自引:0,他引:2       下载免费PDF全文
提出基于主动学习支持向量机的文本分类方法,首先采用向量空间模型(VSM)对文本特征进行提取,使用互信息对文本特征进行降维,然后提出主动学习算法对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

2.
There are two well-known characteristics about text classification.One is that the dimension of the sample space is very high,while the number of examples available usually is very small.The other is that the example vectors are sparse.Meanwhile,we find existing support vector machines active learning approaches are subject to the influence of outliers.Based on these observations,this paper presents a new hybrid active learning approach.In this approach,to select the unlabelled example(s) to query,the learner takes into account both sparseness and high-di-mension characteristics of examples as well as its uncertainty about the examples‘‘ categorization.This way, the active learner needs less labeled examples,but still can get a good generalization performance more quickly than competing methods.Our empirical results indicate that this new approach is effective.  相似文献   

3.
张苗  张德贤 《微机发展》2008,18(3):139-141
文本分类是数据挖掘的基础和核心,支持向量机(SVM)是解决文本分类问题的最好算法之一。传统的支持向量机是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题。介绍了支持向量机的基本原理,对现有主要的多类支持向量机文本分类算法进行了讨论和比较。提出了多类支持向量机文本分类中存在的问题和今后的发展。  相似文献   

4.
针对短文本具有特征稀疏、不规范、主题不明确等特点,提出一种有效的基于支持向量机的短文本分类方法。由于汉语中依存语法分析准确率和时间效率不高的问题,针对客户文本咨询的特点,在对短文本分类时,本文并未对句子进行依存语法的分析,而是主要使用句法特征进行分析,找出文本的子串和子序列形成候选特征集,之后利用信息增益、互信息、卡方统计3种特征选择方法进行有效特征选择,最后采用支持向量机方法进行文本分类。将本文所提的模型应用于一组真实数据,实验结果表明,平均正确率可达到84.19%,从而验证该分类方法的鲁棒性和有效性。  相似文献   

5.
支持向量机的中文文本分类研究   总被引:9,自引:0,他引:9  
支持向量机是一种基于统计学习理论的新型机器学习方法,在文本分类领域取得了很好的效果。使用支持向量机进行了文本分类的研究,实现了一个中文文本自动分类系统,并给出了实验结果。  相似文献   

6.
支持向量机(SVM)主动学习方法研究与应用   总被引:24,自引:2,他引:22  
文中介绍了一种用SVM进行主动学习的方法,解决在某些机器学习问题中,训练样本获取代价过大带来的问题。实验表明,该方法与普通SVM方法相比,在保证SVM分类器性能的前提下,可有效减少学习所需的样本数量。最后设计了一个基于该思想的邮件过滤器模型,依据该模型设计的邮件过滤器将有实时监控、自动更新邮件过滤模块的能力。  相似文献   

7.
基于非线性流形学习和支持向量机的文本分类算法   总被引:1,自引:1,他引:1  
为解决文本自动分类问题,提出一种流形学习和支持向量机相结合的文本分类算法(LLE-LSSVM)。LLE-LSSVM算法利用非线性流形学习算法LEE对高维文本特征进行非线性降维,挖掘出特征内在规律与本征信息,从而得到低维特征空间,然后将其输入到LSSVM中进行学习,同时利用混沌粒子群算法对LSSVM参数进行优化,建立文本分类模型。仿真实验结果表明,LLE-LSSVM算法提高了文本分类准确率,减少了分类运行时间,是一种有效的文本分类算法。  相似文献   

8.
一种改进的支持向量机的文本分类算法   总被引:5,自引:11,他引:5  
在文本分类中,应用支持向量机(SVM)算法能使分类在小样本的条件下具有良好的泛化能力.但支持向量机的参数取值决定了其学习性能和泛化能力.为提高支持向量机算法的性能,提出了一种采用免疫算法对支持向量机参数进行优化的文本分类算法(IA-SVM).算法减少了对支持向量机参数选择的盲目性,提高了SVM的预测精度.实验表明,IA-SVM算法在文本分类问题上明显提高了分类正确牢,学习速度也有提高.  相似文献   

9.
该文是对当前支持向量机在文本分类上的应用进行研究。先介绍了支持向量机的基本方法.再通过对不同方法的支持向量札分类算法的比较,进行一个总体酌描述和概括开对未来发展发向做了一个预测。  相似文献   

10.
一种基于改进的支持向量机的多类文本分类方法   总被引:19,自引:0,他引:19       下载免费PDF全文
提出了一种基于二叉树、预抽取支持向量机及循环迭代算法的改进的支持向量机(SVM)的多类文本分类方法, 与现有的多类分类SVM算法相比,该方法具有较高的计算效率。给出了具体实现过程并将其用于文本分类中,实验表明该算法用于文本分类的有效性及其高效率。  相似文献   

11.
基于关键词语的文本特征选择及权重计算方案   总被引:2,自引:3,他引:2  
文本的形式化表示一直是文本分类的重要难题.在被广泛采用的向量空间模型中,文本的每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征。提出一种基于关键词语的特征选择及权重计算方案,它利用了文本的结构信息同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了TFIDF的缺陷。通过采用支持向量机(SVM)分类器进行实验,结果显示提出的Score权重计算法比传统TFIDF法的平均分类准确率要高5%左右。  相似文献   

12.
基于Boosting算法的文本自动分类器设计   总被引:2,自引:0,他引:2  
Boosting算法是目前流行的一种机器学习算法。采用一种改进的Boosting算法Adaboost.MHKR作为分类算法,设计了一个文本自动分类器,并给出了评估方法和结果。评价表明,该分类器有很好的分类精度。  相似文献   

13.
为了有效提取极短文本中的关键特征信息,提出了一种基于支持向量机的极短文本分类模型。首先对原数据进行数据清洗并利用jieba分词将清洗过的数据进行处理;再将处理后的数据存入数据库,通过TF-IDF进行文本特征的提取;同时,利用支持向量机对极短文本进行分类。经过(1-0)检验,验证了模型的有效性。实验以芜湖市社管平台中的9906条极短文本数据作为样本进行算法检验与分析。结果表明在分类准确率方面,该方法相比于朴素贝叶斯、逻辑回归、决策树等传统方法得到有效提高;在误分度与精确度指标上匹配结果更加均衡。  相似文献   

14.
文本分类将自然语言文本接内容归入一个或多个预定义类别中,在许多信息组织和管理中都是一项重要的内容。不同算法的分类准确性各不相同。通过训练实例可以得到准确率很高的文本分类器。  相似文献   

15.
基于边界可信度相似的快速文本分类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
类别的中心和边界是类别的重要特征.利用训练样本的中心和边界作为分类准则,提出了一种基于边界可信度相似的快速文本分类算法。通过类别边界可信度调整文本与类别的相似性,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高了分类性能。实验结果表明该算法提高了文本分类的效果,显示出了较好的鲁棒性,并显著提高了文本分类效率。  相似文献   

16.
基于机器学习的维吾尔文文本分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型(VSM)表示下的高维性,采用词干提取和IG相结合的方法对表示空间进行降维。采用基于机器学习的分类算法(kNN和Na?ve Bayes)对维吾尔文文本语料进行了分类实验并分析了实验结果。  相似文献   

17.
支持向量机在化学主题爬虫中的应用   总被引:3,自引:0,他引:3  
爬虫是搜索引擎的重要组成部分,它沿着网页中的超链接自动爬行,搜集各种资源。为了提高对特定主题资源的采集效率,文本分类技术被用来指导爬虫的爬行。本文把基于支持向量机的文本自动分类技术应用到化学主题爬虫中,通过SVM 分类器对爬行的网页进行打分,用于指导它爬行化学相关网页。通过与基于广度优先算法的非主题爬虫和基于关键词匹配算法的主题爬虫的比较,表明基于SVM分类器的主题爬虫能有效地提高针对化学Web资源的采集效率。  相似文献   

18.
基于球结构支持向量机的多标签分类的主动学习   总被引:1,自引:0,他引:1  
蒋华  戚玉顺 《计算机应用》2012,32(5):1359-1361
为了实现数据的多标签分类,减少多标签训练样本开销,将球结构支持向量机与主动学习方法结合用于多标签分类,依据球重叠区域样本距离差值度确定样本类别,分析多标签分类特性,采用样本近邻方法更新分类器。实验结果表明,该方法可以用较少的训练样本获得更有效的分类结果。  相似文献   

19.
提出了一种改进的支持向量机增量学习算法。分析了新样本加入后,原样本和新样本中哪些样本可能转化为新支持向量。基于分析结论提出了一种改进的学习算法。该算法舍弃了对最终分类无用的样本,并保留了有用的样本。对标准数据集的实验结果表明,该算法在保证分类准确度的同时大大减少了训练时间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号