共查询到17条相似文献,搜索用时 78 毫秒
1.
面对海量增长的互联网舆情信息,对这些舆情文本信息进行分类成为一项非常有意义的任务。首先,文章给出了文本文档的表示模型及特征选择函数的选取。然后,分析了随机森林算法在分类学习算法中的特点,提出了通过构建一系列的文档决策树来完成文档所属类别的判定。在实验中,收集了大量的网络媒体语料,并设定了训练集和测试集,通过对比测试得到了常见算法(包括k NN、SMO、SVM)与本算法RF的对比量化性能数据,证明了本文提出的算法具有较好的综合分类率和分类稳定性。 相似文献
2.
一种模仿人类的自动文本分类算法 总被引:6,自引:0,他引:6
1.引言 Internet上有着大量的且快速增长的文本,文本是信息和知识的宝贵资源。随着Internet的快速发展,不久的将来,人们所需要的大部分信息都可以在网上找到。Internet正在成为人类的信息宝库,但是随着网上信息的爆炸性增长,人们想从这个信息宝库中获得自己所需要的信息已经变得日益困难,因此,如何快速有效地获得有用的信息已成为人们十分关 相似文献
3.
基于FIFA算法的文本分类 总被引:9,自引:0,他引:9
本文提出了一种简单有效的文本分类方法,其中采用基于FIFA算法的内容主题分析技术,实现文本的自动分类过程。文中详细论述了文本自动分类的基本过程和FIFA算法描述,最后给出了文本自动分类的实验结果和评价。 相似文献
4.
5.
通过对覆盖算法(CA)结果的分析,将覆盖某一类样本的每个覆盖看成一个Gauss分布,利用有限混合模型的极大似然拟合,用期望最大化算法(EM算法)来对覆盖算法进行优化处理.算法的迭代过程,就是不断调整各覆盖的中心、"半径"以及其线性组合系数,逐渐趋向最优解的过程.目的是为了提高覆盖算法的精度.应用于文本分类的实验证明,通过EM方法对均值、方差和线性组合系数进行迭代计算,将所求得的参数用于测试时所得到的平均精度都高于原覆盖算法的最高分类精度以及SVM处理同类数据的分类精度. 相似文献
6.
在如今信息数据大爆炸的时代,数据的增长呈现指数级增长,而且其中大部分数据是非结构化数据,这些数据中蕴藏着大量且重要的知识等待着我们用合理的办法将其挖掘出来,如何方便合理快速的进行文本分类也是一个非常重要的课题。LDA模型是一种无监督的模型,它可以发现隐性的主题,为了更有效的发现隐性主题,本文提出一种基于半监督的LDA主题模型,找到一个主题集作为隐性层的知识集,通过这种方法找到的主题与文本更相关,另外,将LDA模型与基于半监督LDA模型应用于文本的特征提取,并与其它特征提取方法比对,实验表明,半监督LDA模型性能略好。 相似文献
7.
8.
基于关联规则的Web文档分类 总被引:5,自引:2,他引:5
在现有的Web文档分类器中,有的分类器产生比较精确的分类结果,有的分类器产生更易解释的分类模型,但还没有分类器可以将两个方面的优点结合起来.有鉴于此,论文提出一种基于关联规则的Web文档分类方法.该方法采用事务概念,主要考虑两方面的问题:①在文档训练集中发现最优的词条关联规则;②用这些规则构建一个Web文档分类器.试验表明该分类器性能良好,训练速度快,产生的规则易于被人理解,而且容易更新和调整. 相似文献
9.
10.
11.
由于短文本长度较短,在分类时会面临数据稀疏和语义模糊等问题.提出新型图卷积网络BTM_GCN,该网络利用双项主题模型(Biterm Topic Model,BTM)在短文本数据集上训练出固定数量的文档级潜在主题,并作为一种节点嵌入到文本异构图中,再与异构图中的文档节点进行连接,最后利用图卷积网络来捕获文档、词与主题节点... 相似文献
12.
本文意在提高文本分类的准确度和速度。利用tf 算法对特征项进行初步赋予权值,再使用屏蔽词对特殊非实
意词进行屏蔽。本文独创概率论分布法,使用L-E 算子进行加权,使得特殊位置与分布广泛的特征项,呈指数形式加权,较优
结果能更快收敛。本文利用遗传算法,采用交叉算子和变异算子,采用适宜的目标函数,加快了检索速度,并有更大概率得到
最优结果。采用混合算法,可以排除同义词和非特征项的干扰。 相似文献
13.
分类是文本信息搜索和挖掘的核心内容,被广泛应用于搜索引擎的设计以及数据挖掘的研究中。首先对文本进行分词,对分词的结果采用x2统计量的方法提取特征,再使用前向神经网络的交叉覆盖算法作为分类器进行文本分类。实验表明,x2统计量可大规模降低特征维数,在此基础上结合交叉覆盖算法的优秀分类能力,可在特征维数较低的情况下获得一个性能较好的文本分类器。 相似文献
14.
分类是文本信息搜索和挖掘的核心内容,被广泛应用于搜索引擎的设计以及数据挖掘的研究中。首先对文本进行分词,对分词的结果采用x2统计量的方法提取特征,再使用前向神经网络的交叉覆盖算法作为分类器进行文本分类。实验表明,x2统计量可大规模降低特征维数,在此基础上结合交叉覆盖算法的优秀分类能力,可在特征维数较低的情况下获得一个性能较好的文本分类器。 相似文献
15.
利用CHI值特征选取和前向神经网络的覆盖算法,通过对文本进行分词的预处理后,实现文本的自动分类。该方法利用CHI值进行特征选取即特征降维,应用覆盖算法进行文本分类。该方法将CHI值特征选取和覆盖算法充分结合,在提高了分类速度的同时还保证了分类的准确度。应用该方法对标准数据集中的文本进行实验,并在不同的维数上与SVM算法、朴素贝叶斯方法的实验结果进行了比较。结果表明,与SVM算法和朴素贝叶斯方法相比较,覆盖算法在准确度上更好。并且,维数的选择对分类的精确度影响很大。 相似文献
16.
针对现有情感分析模型将卷积神经网络(CNN)和循环神经网络(RNN)建模分离的状况,论文提出了一种基于双向长短期记忆网络(Bi-LSTM)和CNN相结合并带有注意力机制(Attention)的文本分类模型。模型先获取上下文语义特征,再融合局部语义特征,同时对每一时刻的特征信息给予多个不同权重关注。实验表明,该模型可以有效地增强分类语义特征的捕获能力,比使用单一神经网络或者它们的任意两两组合,该模型不论在训练速度还是在预测准确度方面都有很好的改善。 相似文献
17.
比较文本对于企业竞争产品分析至关重要,但目前面向问答领域的比较文本分类研究较少。针对问答文本中比较信息丰富、主题集中的特点,提出了基于主题特征和关键词特征扩展的比较文本分类方法。通过预训练主题模型,推断问答文本的主题概率分布作为其主题特征;针对向量拼接、求和导致关键词信息流失的问题,设计GRU自编码器实现关键词向量特征提取。综合文本主题信息和关键词语义,从语言、产品、情感、社交、主题、关键词角度构建比较文本分类特征,最后使用多种分类器对问答文本进行分类。实验结果表明,构建的特征行之有效,比较文本分类效果较好。 相似文献