首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
SVM用于文本分类的适用性   总被引:3,自引:0,他引:3       下载免费PDF全文
本文从统计的角度描述了文本分类的关键性质,给出了相应的文本文档集的统计分类模式,并将其与支持向量机的模型结合,说明了为什么支持向量机(SVM)能够很好地进行文本分类。本文主要是从理论角度说明SVM用于文本分类的适用性,模型构造简单,并且是高度抽象、无噪音的。  相似文献   

2.
为解决应急信息数据杂乱无章、缺乏高效管理等问题,通过结合长短时记忆网络(long-term and short-term memory network,LSTM)与卷积神经网络(Convolutional Neural Networks,CNN)两个传统深度学习模型,提出一种基于LSTM-TextCNN联合模型的改进应...  相似文献   

3.
提出一种融合语义的隐马尔科夫模型用于文本分类的方法。将特征词的语义作为先验知识融合到隐马尔科夫分类模型中。通过信息增益提取特征词,用word2vec提取特征词语义,将每一个类别映射成一个隐马尔科夫分类模型,模型中状态转移过程就是该类文本生成过程。将待分文本与分类模型做相似度比较,取得最大类别输出概率。该方法不仅考虑特征词、词频、文档数量先验知识,而且将特征词语义融合到隐马尔科夫分类模型中。通过实验评估,取得了比原HMM模型和朴素贝叶斯分类模型更好的分类效果。  相似文献   

4.
基于SVM的维吾尔文文本分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景。随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型表示下的高维性,本文采用词干提取和χ2统计量相结合的方法对表示空间进行降维。采用SVM算法构造了维吾尔文文本分类器。针对维吾尔文文本分类语料进行的实验结果表明,SVM分类器的MacroF1值达到了84.6%,明显好于kNN方法。  相似文献   

5.
基于SVM的哈萨克语文本分类   总被引:1,自引:0,他引:1  
介绍了支持向量机(SVM)和k-最近邻法(kNN)分类算法的思想和两种哈萨克语特征提取方法。对SVM、kNN和Bayes算法在哈萨克语文本分类的实验进行了比较。实验结果表明:在处理哈萨克语文本分类问题上,SVM较kNN和Bayes有较好的分类效果。由于哈萨克文单词的语素和构形的特点,若对哈萨克语词缀进行切分,则会降低文本分类的准确率和查全率。  相似文献   

6.
朴素贝叶斯分类器基于样本各属性相互条件独立的假设前提,它作为一种简单的词袋模型,忽略了上下文语境下同义词对分类的影响。本文提出相似词概念,使用相似词词簇代替传统的特征词典参与训练。首先训练word2vec得到词向量。然后,将特征词典用词向量表示后层次聚类,构建相似词词簇,并对其扩展。实验结果表明,改进后算法有效提高了文本分类的准确度,避免了因分类训练语料的差异导致分类效果的不稳定。  相似文献   

7.
根据文本分类通常包含多异类数据源的特点,提出了多核SVM学习算法。该算法将分类核矩阵的二次组合重新表述成半无限规划,并说明其可以通过重复利用SVM来实现有效求解。实验结果表明,提出的算法可以用于数百个核的结合或者是数十万个样本的结合,对于多异类数据源的文本分类具有较高的查全率和查准率。  相似文献   

8.
基于SVM的图像分类算法与实现   总被引:4,自引:1,他引:4       下载免费PDF全文
提出了一种对人类视觉中的黑白老照片和彩色照片进行分类的方法,其基本思想是,首先在分析两者各自特点的基础上,定义了一些指标特征;其次利用这些指标对图像进行预分类,找出其中特征明显的图像;然后使用支持向量机(SVM)的算法对这些指标进行学习来区分剩余图像,最终达到对图像分类的效果。实验结果表明指标定义是合理的,效果也较满意。  相似文献   

9.
给出了一种基于编码二叉树的支持向量的多类分类算法。先定义了一种构造编码二叉树的方法,在此基础上合理的使用每个训练样本对应的编码来对多类样本进行划分,使之转化为两类分类问题。可以看出该算法可以大大减少子分类器的构造个数,从而简化了多类SVM分类算法。  相似文献   

10.
特征选择即是降维去噪的过程,一个词汇是否具有强的类别区分能力通过特征选择评价函数的权值大小来衡量,然而影响特征选择的因素有很多,主要包括特征的维度、重要性和语义;针对短文本信息量少导致特征表示高维稀疏和传统特征提取方法缺乏语义的问题,构建多因素融合的特征选择函数FS,和传统的特征选择函数TF-IDF对比,FS不仅融入了特征的语义性,而且能够去除大量冗余特征,提高具有类别区分能力特征的权重;把FS作为新的特征选择函数,使用搜狗实验室的中文语料库进行短文本分类实验,验证了方法有效性.  相似文献   

11.
一种基于支持向量机的专业中文网页分类器   总被引:4,自引:1,他引:4  
文中提出了一种基于支持向量机的专业中文网页分类算法,利用支持向量机对网页进行二类分类,找出所需专业的中文网页;然后利用向量空间模型,对分类好的专业网页进行多类分类。在构造支持向量机的过程中,为了提高分类的召回率,采用了一种偏移因子。该算法只需要计算二类SVM分类器,实验表明,它不仅具有较高的训练效率,同时能得到很高的分类精确率和召回率。  相似文献   

12.
支持向量机在网页信息分类中的应用研究   总被引:4,自引:0,他引:4  
针对日益膨胀的网络信息,为方便用户准确定位所需的信息,将支持向量机(SVM)与二叉决策树结合起来进行网页信息的分类,并在构造决策支持向量机分类模型的基础上,进一步结合聚类的方法,解决多类分类问题,减少支持向量机的训练样本数,提高分类训练速度和分类准确率.  相似文献   

13.
基于统计分词的中文网页分类   总被引:9,自引:3,他引:9  
本文将基于统计的二元分词方法应用于中文网页分类,实现了在事先没有词表的情况下通过统计构造二字词词表,从而根据网页中的文本进行分词,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别,新词不断出现,而且易于获得大量的同类型文本作为训练语料。这些都为实现统计分词提供了条件。本文通过试验测试了统计分词构造二字词表用于中文网页分类的效果。试验表明,在统计阈值选择合适的时候,通过构建的词表进行分词进而进行网页分类,能有效地提高网页分类的分类精度。此外,本文还分析了单字和分词对于文本分类的不同影响及其原因。  相似文献   

14.
支持向量机(SVM)理论建立在结构风险最小化原理基础上,对非线性、高维数的小样本问题有非常好的分类效果和学习推广能力。本文设计了基于支持向量机的车型识别系统,系统通过对摄像机采集的视频图像进行运动目标检测分割、特征提取与选择、模式识别等处理,达到实时车型识别。试验结果表明,该系统有很高的识别率和适应性。  相似文献   

15.
基于支持向量机与无监督聚类相结合的中文网页分类器   总被引:74,自引:0,他引:74  
提出了一种将支持向量机与无监督聚类相结合的新分类算法,给出了一种新的网页表示方法并应用于网页分类问题。该算法首先利用无监督聚类分别对训练集中正例和反例聚类,然后挑选一些例子训练SVM并获得SVM分类器,任何网页可以通过比较其与聚类中心的距离决定采用无监督聚类方法或SVM分类器进行分类。该算法充分利用了SVM准确率高与无监督聚类速度快的优点。实验表明它不仅具有较高的训练效率,而且有很高的精确度。  相似文献   

16.
基于K近邻的支持向量机分类方法   总被引:3,自引:0,他引:3  
针对支持向量机对噪声和孤立点非常敏感,以及对大规模且交错严重的训练集支持向量个数多,分类速度慢和精度低等问题,基于KNN方法提出KNN-SVM分类器.首先在特征空间中,根据每个样本K个近邻中同类别样本数目的多少来删减样本集,然后对新样本集进行SVM训练;又证明了当取高斯核函数或指数核函数时,上述删减方法可简化为在原空间中进行.该方法减少了由噪声和孤立点以及一些对分类面贡献不大的样本所带给训练器的负担,减少了支持向量的个数,从而与SVM相比,加快了训练和测试速度,提高了分类精度.仿真实验表明KNN-SVM具有上述优势,而且比NN-SVM更能合理地删减样本集,达到更高的分类精度.  相似文献   

17.
基于SVM的综合评价方法研究   总被引:32,自引:1,他引:32  
系统介绍了统计学习理论与支持向量机的基本思想,研究了它们在综合评价中的应用。分析了科研立项评审系统的设计方法,建立了基于SVM的评审系统。文末比较了新评审系统和采用其它方法如模糊排序、神经网络等建立的评审系统所分别取得的拟合效果,比较结果表明:采用支持向量机设计的评审系统结构简单、思路清晰地且能取得更为理想的评审结果。  相似文献   

18.
基于SVM主动学习的入侵检测系统   总被引:1,自引:1,他引:1       下载免费PDF全文
研究在入侵检测中,采用基于支持向量机(SVM)的主动学习算法,解决小样本下的机器学习问题。该文提出了基于SVM主动学习算法的系统框架及适用于入侵检测系统的SVM主动学习算法,讨论了候选样本集的组成比例、候选样本集数量及核函数的不同参数选取对检测结果的影响。通过实验验证,基于SVM主动学习算法与传统SVM算法相比,能有效地减少学习样本数,提高检测精度。  相似文献   

19.
基于K-近邻算法的网页自动分类系统的研究及实现   总被引:2,自引:0,他引:2  
随着网络信息量的爆炸式增长,人们查找信息越来越难。Web搜索引擎的出现在一定程度上解决了这种矛盾。然而现行的搜索引擎无法根据用户所指定的主题进行针对性的搜索,因此,必须在搜索后对结果是否属于目标主题进行判断,以提高搜索的准确性,文中提出了一种基于K-近邻机器学习算法的信息自动分类的方法,能够对搜索到的网页自动地判定是否属于目标主题,并在实验的基础上验证了其在提高搜索准确性上的作用。  相似文献   

20.
在这个信息爆炸的时代,如何处理这些海量的数据如何有效的分类已经引起了人们的高度重视,尤其是在互联无技术迅速发展的阶段,网页分类这领域已成为热点. 与传统的分类方法相比,支持向量机具有高维、小样本、适应性强的特点,能够非常有效率的解决网页分类问题,但是不平衡数据的分类这一方面,存在着分类不精确的问题. 所以本文提出了新的解决不平衡数据样本策略,便是将欠采样策略与传统的支持向量机结合起来,在减少多数类样本集中噪声数据的基础上增加少数类的样本集数量,从而使得不平衡样本集趋向于平衡,最后结合SMO(Senquential Minimal Optimization)算法改进分类器,提高了分类的准确性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号