首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 453 毫秒
1.
刘端阳  陆洋 《计算机工程》2012,38(8):128-130
传统tf.idf方法未利用分类数据的特性,无法反映词在各个类别之间的比例关系。为此,在分析有指导的文本特征加权方法tf.rf基础上,提出一种基于有指导的改进文本特征加权方法tf.ridf。该改进方法结合tf.idf和tf.rf 2种方法的特点,考虑词在总体文档及各类别文档之间的关系,实现文本特征加权。实验结果表明,该方法的分类能力比tf.rf方法有明显提升。  相似文献   

2.
基于加权近似支持向量机的文本分类研究   总被引:2,自引:1,他引:1  
文本分类能够很好地帮助用户整理、获取信息,在提高信息检索的速度和准确率方面显得意义重大,具有很重要的研究价值.针对以往的近似支持向量机没有考虑不均衡数据的情况,提出了通过对每个训练错误赋予一个权值来改进近似支持向量机,并给出了一种简单的参数估计方法.实验结果表明,基于加权近似支持向量机的分类算法在处理不均衡数据时,样本数少的类别分类精度得到提高,性能表现良好.  相似文献   

3.
采用模糊支持向量机时,隶属度函数的设计是整个算法的关键。详细阐述了已存在的隶属度函数,重点分析了目前应用较广的紧密度模糊支持向量机,针对紧密度模糊支持向量机的不足,提出了一种扩展的紧密度模糊支持向量机,并将其应用到文本分类领域。实验结果表明,与传统模糊支持向量机相比,该算法分类性能更好,抗噪能力更强。  相似文献   

4.
基于支持向量机和最小二乘支持向量机的入侵检测比较   总被引:2,自引:0,他引:2  
将支持向量机和最小二乘支持向量机用于入侵检测之中,利用主元分析对数据进行约简,然后使用SVM和 LS-SVM对数据进行训练和测试.基于KDDCUP'99做了三组对比实验,对支持向量机和最小二乘支持向量机的性能做了统计.实验结果表明,SVM比LS-SVM分类能力强,但是LS-SVM耗时较少.  相似文献   

5.
基于主动学习支持向量机的文本分类   总被引:2,自引:0,他引:2       下载免费PDF全文
提出基于主动学习支持向量机的文本分类方法,首先采用向量空间模型(VSM)对文本特征进行提取,使用互信息对文本特征进行降维,然后提出主动学习算法对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

6.
将文本分类理论应用于哈萨克语中,给出基于支持向量机的哈萨克文文本分类系统的设计思想.从哈萨克语言学的角度对哈萨克文分析,提出哈萨克文词干提取的方法.在对支持向量机的理论分析基础上,提出主动学习算法对支持向量机进行训练,使用训练后的分类器对新的文本进行分类.实验结果表明,该方法在哈萨克文文本分类中能获得可接受的分类性能.  相似文献   

7.
针对v-支持向量机在样本集规模较大的情况下,需要占用大量训练时间的问题,提出基于粗糙集边界的v-支持向量机混合分类算法。该算法根据粗糙集理论边界区域的优点,生成分类数据的边界集,使其包括全部的支持向量,用此边界向量集替代原始样本作为训练集,减少训练集的数量,则可以在不影响分类精度和泛化性能的前提下显著缩短v-支持向量机的训练时间。仿真结果表明该算法的有效性。  相似文献   

8.
一种改进的支持向量机的文本分类算法   总被引:16,自引:11,他引:5  
在文本分类中,应用支持向量机(SVM)算法能使分类在小样本的条件下具有良好的泛化能力.但支持向量机的参数取值决定了其学习性能和泛化能力.为提高支持向量机算法的性能,提出了一种采用免疫算法对支持向量机参数进行优化的文本分类算法(IA-SVM).算法减少了对支持向量机参数选择的盲目性,提高了SVM的预测精度.实验表明,IA-SVM算法在文本分类问题上明显提高了分类正确牢,学习速度也有提高.  相似文献   

9.
基于最小二乘支持向量机的非平衡分布数据分类   总被引:1,自引:1,他引:0       下载免费PDF全文
支持向量机是在统计学习理论基础上发展起来的一种十分有效的分类方法。然而当两类样本数量相差悬殊时,会引起支持向量机分类能力的下降。为了提高支持向量机的非平衡数据分类能力,文章分析了最小二乘支持向量机的本质特征,提出了一种非平衡数据分类算法。在UCI标准数据集上进行的实验表明,该算法能够有效提高支持向量机对非均衡分布数据的正确性,尤其对于大规模训练集的情况,该算法在保证不损失训练精度的前提下,使训练速度有较大提高。  相似文献   

10.
提出基于改进PSO优化支持向量机的文本分类方法,首先采用向量空间模型对文本特征进行提取,使用互信息对文本特征进行降维,然后提出改进PSO算法,该算法可实现对SVM参数的精确、稳定、快速优化选择,对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

11.
提出一种基于SVM的宽带测向新方法,利用频域相关技术提取宽带范围内感兴趣的信号的相位差,利用此相位差作为支持向量机的输入特征训练DOA(Direction Of Arrival)估计模型,对宽带范围内的多个窄带或宽带信号进行测向。训练后的模型针对的是一个较宽的频段范围,有效避免了其他算法要针对不同频率频繁调整模型的问题,大大降低了计算量。实验结果也验证了该方法具有较高的测向精度和较快的测向速度。  相似文献   

12.
由于图象存储数据量非常大,因此提取图象特征和检索极为耗时.为了提高图象检索效率,将文本检索中的有效检索方法(基于关键字频率与关键字逆文档频率乘积的索引模型)结合三角树索引机制应用到基于内容的图象检索,提出了一种基于独立关键子块和三角树的快速图象检索新方法.该方法首先用独立分量分析将样本图象子块中的直方图特征映射到色彩概念空间来得到类似于文本中关键字的独立关键子块;然后再用训练好的模糊支持向量机去识别每幅图象中所包含的独立关键子块,由于独立分量分析能够使特征彼此保持高阶独立性,因此该方法与主成分分析方法对比,具有较高检索效率;最后,再通过构造三角树来来为图象数据库建立分层索引结构,以加快检索速度.  相似文献   

13.
In vector space model (VSM), text representation is the task of transforming the content of a textual document into a vector in the term space so that the document could be recognized and classified by a computer or a classifier. Different terms (i.e. words, phrases, or any other indexing units used to identify the contents of a text) have different importance in a text. The term weighting methods assign appropriate weights to the terms to improve the performance of text categorization. In this study, we investigate several widely-used unsupervised (traditional) and supervised term weighting methods on benchmark data collections in combination with SVM and kNN algorithms. In consideration of the distribution of relevant documents in the collection, we propose a new simple supervised term weighting method, i.e. tf.rf, to improve the terms' discriminating power for text categorization task. From the controlled experimental results, these supervised term weighting methods have mixed performance. Specifically, our proposed supervised term weighting method, tf.rf, has a consistently better performance than other term weighting methods while other supervised term weighting methods based on information theory or statistical metric perform the worst in all experiments. On the other hand, the popularly used tf.idf method has not shown a uniformly good performance in terms of different data sets.  相似文献   

14.
提出一种改进的数据挖掘算法。首先采用ICTCLAS系统进行文本预处理,以词频特征构建词条向量;然后融合词频特征和词频-逆向文件频率特征,构建训练样本集的特征矩阵;接着对该矩阵进行奇异值分解变换,得到语义空间,用于对文本特征向量进行语义空间变换,得到语义向量;最后构建联合支持向量机分类器,实现中文书目所对应的语义向量的自动分类。最后做了大量的仿真实验,实验结果表明,本文方法的分类准确率高于现有方法。  相似文献   

15.
基于关键词语的文本特征选择及权重计算方案   总被引:2,自引:3,他引:2  
文本的形式化表示一直是文本分类的重要难题.在被广泛采用的向量空间模型中,文本的每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征。提出一种基于关键词语的特征选择及权重计算方案,它利用了文本的结构信息同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了TFIDF的缺陷。通过采用支持向量机(SVM)分类器进行实验,结果显示提出的Score权重计算法比传统TFIDF法的平均分类准确率要高5%左右。  相似文献   

16.
Sentiment analysis for social media and online document has been a burgeoning area in text mining for the last decade. However, Email sentiment analysis has not been studied and examined thoroughly even though it is one of the most ubiquitous means of communication. In this research, a hybrid sentiment analysis framework for Email data using term frequency-inverse document frequency term weighting model for feature extraction, and k-means labeling combined with support vector machine classifier for sentiment classification is proposed. Empirical results indicate comparatively better classification results with the proposed framework than other combinations.  相似文献   

17.
SVM-KNN分类算法研究   总被引:1,自引:0,他引:1  
SVM-KNN分类算法是一种将支持向量机(SVM)分类和最近邻(NN)分类相结合的新分类方法。针对传统SVM分类器中存在的问题,该算法通过支持向量机的序列最小优化(SMO)训练算法对数据集进行训练,将距离差小于给定阈值的样本代入以每类所有的支持向量作为代表点的K近邻分类器中进行分类。在UCI数据集上的实验结果表明,该分类器的分类准确率比单纯使用SVM分类器要高,它在一定程度上不受核函数参数选择的影响,具有较好的稳健性。  相似文献   

18.
文档中词语权重计算方法的改进   总被引:57,自引:5,他引:52  
文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型(Vector Space Model) 中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一,但现在tf.idf方法无法把握这一因素。针对这个问题,本文引入信息论中信息增益的概念,提出一种对tf.idf的改进方法tf.idf.IG文本表示方法。该方法将词语的信息增益作为一个文本表示的一个因子,来衡量词语在文本集合中分布比例在量上的差异。在文本分类实验中,tf.idf.IG文本表示的向量空间模型的分类效果要好于tf.idf方法,验证了改进方法tf.idf.IG的有效性和可行性。  相似文献   

19.
由于置信向量机运算大、分类速度慢导致其应用价值有限,需要对其进行改进。详细分析了近邻置信向量机所使用的基本技术,论述了近邻置信向量机使用的奇异检测函数和分类方法,并将其与基本置信向量机进行了对比。给出了近邻置信向量机的具体实施步骤。通过试验证明解决了置信向量机运算量大的问题,提高了分类速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号