共查询到19条相似文献,搜索用时 78 毫秒
1.
本文从统计的角度描述了文本分类的关键性质,给出了相应的文本文档集的统计分类模式,并将其与支持向量机的模型结合,说明了为什么支持向量机(SVM)能够很好地进行文本分类。本文主要是从理论角度说明SVM用于文本分类的适用性,模型构造简单,并且是高度抽象、无噪音的。 相似文献
2.
一种用于文本分类的语义SVM及其在线学习算法 总被引:1,自引:1,他引:1
该文利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本分类问题中同类别文本的特征在特征空间中具有聚类性分布的特点,提出一种使用语义中心集代替原训练样本集作为训练样本和支持向量的SVM:语义SVM。文中给出语义中心集的生成步骤,进而给出语义SVM的在线学习(在线分类知识积累)算法框架,以及基于SMO算法的在线学习算法的实现。实验结果说明语义SVM及其在线学习算法具有巨大的应用潜力:不仅在线学习速度和分类速度相对于标准SVM及其简单增量算法有数量级提高,而且分类准确率方面具有一定优势。 相似文献
3.
文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景。随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型表示下的高维性,本文采用词干提取和χ2统计量相结合的方法对表示空间进行降维。采用SVM算法构造了维吾尔文文本分类器。针对维吾尔文文本分类语料进行的实验结果表明,SVM分类器的MacroF1值达到了84.6%,明显好于kNN方法。 相似文献
4.
通过实验对SVM、KNN文本分类算法进行了深入探讨。基于KNN和SVM算法,提出了一种SVM.KNN算法。该算法结合KNN和SVM两种分类器,并通过分类预测概率的反馈和修正来提高分类器性能。在CWT100G中文网页分类测试系统中,对SVM.KNN算法的实际效果进行了测试和算法性能验证。 相似文献
5.
面向特定领域文本分类的实际应用,存在大量样本相互掺杂的现象,使其无法线性表述,在SVM中引入核函数可以有效地解决非线性分类的问题,而选择不同的核函数可以构造不同的SVM,其识别性能也不同,因此,选择合适的核函数及其参数优化成为SVM的关键.本文基于单核核函数的性质,对多项式核函数与径向基核函数进行线性加权,构建具有良好的泛化能力与良好的学习能力的组合核函数.仿真实验结果表明,在选择正确参数的情况下,组合核函数SVM的宏平均准确率、宏平均召回率及宏平均综合分类率都明显优于线性核、多项式核与径向基核,而且能够兼顾准确率与召回率. 相似文献
6.
7.
随着信息时代的到来,互联网平台上的文本数据开始爆发式增长,其中难免夹杂着一些不法数据.这些数据往往隐藏在海量数据中,因此给平台检索这些不法数据增加了难度.在这种情况下再用传统的文本分类方法已经不能满足需求了.因此论文根据文本数据的特点提出了基于主动学习的SVM评论内容分类方法,该方法使用主动学习的思想将敏感词向量、k-... 相似文献
8.
《计算机应用与软件》2016,(2)
针对大规模文本的自动层次分类问题,K近邻(KNN)算法分类效率较高,但是对于处于类别边界的样本分类准确度不是很高。而支持向量机(SVM)分类算法准确度比较高,但以前的多类SVM算法很多基于多个独立二值分类器组成,训练过程比较缓慢并且不适合层次类别结构等。提出一种融合KNN与层次SVM的自动分类方法。首先对KNN算法进行改进以迅速得到K个最近邻的类别标签,以此对文档的候选类别进行有效筛选。然后使用一个统一学习的多类稀疏层次SVM分类器对其进行自上而下的类别划分,从而实现对文档的高效准确的分类过程。实验结果表明,该方法在单层和多层的分类数据集上的分类准确度比单独使用其中任何一种要好,同时分类时间上也比较接近其中最快的单个分类器。 相似文献
9.
基于SVM算法的文本分类技术研究 总被引:9,自引:0,他引:9
在优化分类技术的研究中,文本特征化后通常具有高维性和不平衡性的特点,导致传统的分类算法准确率不高的问题.针对文本分类器的性能容易受到核函数和参数的影响的问题,为提高文本分类器的准确性.采用支持向量机(SVM)的理论在文本分类技术同时将根据优化的粒子群算法(PSO)引入SVM分类算法中进行优化文本分类器的参数,将分类器的准确率作为PSO算法适应度函数通过粒子移动操作找出最佳参数并用SVM算法进行分类.在文本数据集上的仿真结果表明,与传统的算法相比,经PSO算法优化后的SVM文本分类器的准确性更高,PSO算法是一种有效的优化方法,能广泛应用于文本分类问题. 相似文献
10.
LDA是生成武概率模型,从理论上说,具有其他模型无可比拟的建模优点;SVM分类算法在文本分类上具有独特的优异性能,本文将前者良好的文本表示性能、降维效果与后者强大的分类能力结合起来。实验表明,该方法克服了传统选择方法带来的分类性能受损问题,并且能够在降低数据维度的象件下提高分类的正确率。 相似文献
11.
12.
13.
14.
Umid Suleymanov Behnam Kiani Kalejahi Elkhan Amrahov Rashid Badirkhanli 《计算机系统科学与工程》2020,35(6):467-475
Text classification systems will help to solve the text clustering problem in the Azerbaijani language. There are some text-classification applications forforeign languages, but we tried to build a newly developed system to solve this problem for the Azerbaijani language. Firstly, we tried to find out potentialpractice areas. The system will be useful in a lot of areas. It will be mostly used in news feed categorization. News websites can automatically categorizenews into classes such as sports, business, education, science, etc. The system is also used in sentiment analysis for product reviews. For example, thecompany shares a photo of a new product on Facebook and the company receives a thousand comments for new products. The systems classify commentslike positive or negative. The system can also be applied in recommended systems, spam filtering, etc. Various machine learning techniques such as NaiveBayes, SVM, Multi-layer Perceptron have been devised to solve the text classification problem in Azerbaijani language. 相似文献
15.
16.
研究哈萨克语自动文本分类,并实现哈萨克语文本自动分类系统.系统首先对测试语料进行特征提取,而后生成训练模型.其次,对训练语料进行特征提取生成SVM向量.最后,给出测试文本的分类结果.同时对哈萨克语单词切分和未切分进行分类对比,得出未切分单词可以得出更好的分类效果. 相似文献
17.
18.
19.
弹性多核学习 总被引:1,自引:0,他引:1
多核学习 (MKL) 的提出是为了解决多个核矩阵的融合问题, 多核学习求解关于多个核矩阵的最优的线性组合并同时解出对应于这个组合矩阵的支持向量机(SVM)问题. 现有的多核学习的框架倾向于寻找稀疏的组合系数, 但是当有信息的核的比例较高的时候, 对稀疏性的倾向会使得只有少量的核被选中而损失相当的分类信息. 在本文中, 我们提出了弹性多核学习的框架来实现自适应的多核学习. 弹性多核学习的框架利用了一个混合正则化函数来均衡稀疏性和非稀疏性, 多核学习和支持向量机问题都可以视作弹性多核学习的特殊情形. 基于针对多核学习的梯度下降法, 我们导出了针对弹性多核学习的梯度下降法. 仿真数据的结果显示了弹性多核学习方法相对多核学习和支持向量机的优势; 我们还进一步将弹性多核学习应用于基因集合分析问题并取得了有意义的结果; 最后, 我们比较研究了弹性多核学习与另一种利用了非稀疏思想的多核学习. 相似文献