共查询到20条相似文献,搜索用时 125 毫秒
1.
本文从统计的角度描述了文本分类的关键性质,给出了相应的文本文档集的统计分类模式,并将其与支持向量机的模型结合,说明了为什么支持向量机(SVM)能够很好地进行文本分类。本文主要是从理论角度说明SVM用于文本分类的适用性,模型构造简单,并且是高度抽象、无噪音的。 相似文献
2.
许旺 《数字社区&智能家居》2022,(4):95-99
为解决应急信息数据杂乱无章、缺乏高效管理等问题,通过结合长短时记忆网络(long-term and short-term memory network,LSTM)与卷积神经网络(Convolutional Neural Networks,CNN)两个传统深度学习模型,提出一种基于LSTM-TextCNN联合模型的改进应... 相似文献
3.
《计算机应用与软件》2017,(7)
提出一种融合语义的隐马尔科夫模型用于文本分类的方法。将特征词的语义作为先验知识融合到隐马尔科夫分类模型中。通过信息增益提取特征词,用word2vec提取特征词语义,将每一个类别映射成一个隐马尔科夫分类模型,模型中状态转移过程就是该类文本生成过程。将待分文本与分类模型做相似度比较,取得最大类别输出概率。该方法不仅考虑特征词、词频、文档数量先验知识,而且将特征词语义融合到隐马尔科夫分类模型中。通过实验评估,取得了比原HMM模型和朴素贝叶斯分类模型更好的分类效果。 相似文献
4.
文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景。随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型表示下的高维性,本文采用词干提取和χ2统计量相结合的方法对表示空间进行降维。采用SVM算法构造了维吾尔文文本分类器。针对维吾尔文文本分类语料进行的实验结果表明,SVM分类器的MacroF1值达到了84.6%,明显好于kNN方法。 相似文献
5.
6.
朴素贝叶斯分类器基于样本各属性相互条件独立的假设前提,它作为一种简单的词袋模型,忽略了上下文语境下同义词对分类的影响。本文提出相似词概念,使用相似词词簇代替传统的特征词典参与训练。首先训练word2vec得到词向量。然后,将特征词典用词向量表示后层次聚类,构建相似词词簇,并对其扩展。实验结果表明,改进后算法有效提高了文本分类的准确度,避免了因分类训练语料的差异导致分类效果的不稳定。 相似文献
7.
8.
提出了一种对人类视觉中的黑白老照片和彩色照片进行分类的方法,其基本思想是,首先在分析两者各自特点的基础上,定义了一些指标特征;其次利用这些指标对图像进行预分类,找出其中特征明显的图像;然后使用支持向量机(SVM)的算法对这些指标进行学习来区分剩余图像,最终达到对图像分类的效果。实验结果表明指标定义是合理的,效果也较满意。 相似文献
9.
给出了一种基于编码二叉树的支持向量的多类分类算法。先定义了一种构造编码二叉树的方法,在此基础上合理的使用每个训练样本对应的编码来对多类样本进行划分,使之转化为两类分类问题。可以看出该算法可以大大减少子分类器的构造个数,从而简化了多类SVM分类算法。 相似文献
10.
特征选择即是降维去噪的过程,一个词汇是否具有强的类别区分能力通过特征选择评价函数的权值大小来衡量,然而影响特征选择的因素有很多,主要包括特征的维度、重要性和语义;针对短文本信息量少导致特征表示高维稀疏和传统特征提取方法缺乏语义的问题,构建多因素融合的特征选择函数FS,和传统的特征选择函数TF-IDF对比,FS不仅融入了特征的语义性,而且能够去除大量冗余特征,提高具有类别区分能力特征的权重;把FS作为新的特征选择函数,使用搜狗实验室的中文语料库进行短文本分类实验,验证了方法有效性. 相似文献
11.
12.
支持向量机在网页信息分类中的应用研究 总被引:4,自引:0,他引:4
针对日益膨胀的网络信息,为方便用户准确定位所需的信息,将支持向量机(SVM)与二叉决策树结合起来进行网页信息的分类,并在构造决策支持向量机分类模型的基础上,进一步结合聚类的方法,解决多类分类问题,减少支持向量机的训练样本数,提高分类训练速度和分类准确率. 相似文献
13.
基于统计分词的中文网页分类 总被引:9,自引:3,他引:9
本文将基于统计的二元分词方法应用于中文网页分类,实现了在事先没有词表的情况下通过统计构造二字词词表,从而根据网页中的文本进行分词,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别,新词不断出现,而且易于获得大量的同类型文本作为训练语料。这些都为实现统计分词提供了条件。本文通过试验测试了统计分词构造二字词表用于中文网页分类的效果。试验表明,在统计阈值选择合适的时候,通过构建的词表进行分词进而进行网页分类,能有效地提高网页分类的分类精度。此外,本文还分析了单字和分词对于文本分类的不同影响及其原因。 相似文献
14.
15.
16.
基于K近邻的支持向量机分类方法 总被引:3,自引:0,他引:3
针对支持向量机对噪声和孤立点非常敏感,以及对大规模且交错严重的训练集支持向量个数多,分类速度慢和精度低等问题,基于KNN方法提出KNN-SVM分类器.首先在特征空间中,根据每个样本K个近邻中同类别样本数目的多少来删减样本集,然后对新样本集进行SVM训练;又证明了当取高斯核函数或指数核函数时,上述删减方法可简化为在原空间中进行.该方法减少了由噪声和孤立点以及一些对分类面贡献不大的样本所带给训练器的负担,减少了支持向量的个数,从而与SVM相比,加快了训练和测试速度,提高了分类精度.仿真实验表明KNN-SVM具有上述优势,而且比NN-SVM更能合理地删减样本集,达到更高的分类精度. 相似文献
17.
18.
19.
基于K-近邻算法的网页自动分类系统的研究及实现 总被引:2,自引:0,他引:2
随着网络信息量的爆炸式增长,人们查找信息越来越难。Web搜索引擎的出现在一定程度上解决了这种矛盾。然而现行的搜索引擎无法根据用户所指定的主题进行针对性的搜索,因此,必须在搜索后对结果是否属于目标主题进行判断,以提高搜索的准确性,文中提出了一种基于K-近邻机器学习算法的信息自动分类的方法,能够对搜索到的网页自动地判定是否属于目标主题,并在实验的基础上验证了其在提高搜索准确性上的作用。 相似文献
20.
在这个信息爆炸的时代,如何处理这些海量的数据如何有效的分类已经引起了人们的高度重视,尤其是在互联无技术迅速发展的阶段,网页分类这领域已成为热点. 与传统的分类方法相比,支持向量机具有高维、小样本、适应性强的特点,能够非常有效率的解决网页分类问题,但是不平衡数据的分类这一方面,存在着分类不精确的问题. 所以本文提出了新的解决不平衡数据样本策略,便是将欠采样策略与传统的支持向量机结合起来,在减少多数类样本集中噪声数据的基础上增加少数类的样本集数量,从而使得不平衡样本集趋向于平衡,最后结合SMO(Senquential Minimal Optimization)算法改进分类器,提高了分类的准确性. 相似文献