首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 179 毫秒
1.
突发事件类别众多,若采用传统的平面文本分类方法对突发事件分类,模型训练所需计算量剧增,并且对测试文本分类时要和全部分类器进行比较,导致极大的时间开销。根据突发事件类别体系结构层次性特点,提出了一种基于领域特征词的突发事件层次分类方法,将领域特征词自动提取算法用于特征选择,并在每个分类平面上采用改进的基于二叉树的SVM多类分类算法构建分类器。实验证明,基于领域特征词提取算法的特征选择方法优于传统方法,采用层次分类方法对突发事件分类,降低了时间复杂度,同时改善了分类效果,有效降低了错误分类的风险。  相似文献   

2.
随着互联网的发展,网上购物成为主流消费方式,随之产生了大量的商品文本数据,需要对商品进行准确而高效的分类。利用机器学习进行文本分类需要进行复杂的人工设计特征和提取特征过程。随着深度学习领域的发展,基于深度学习的文本分类技术效果显著。设计了一个基于长短期记忆网络(LSTM)的中文文本多分类器。首先对数据进行预处理,利用Tokenizer分词技术将文本处理为计算机可理解的词向量传入LSTM网络,并加入Dropout算法以防止过拟合得出最终的分类模型。将该模型与逻辑回归、多项式朴素贝叶斯、线性支持向量机、随机森林模型进行对比发现,基于LSTM的中文文本多分类方法具有较好的效果。  相似文献   

3.
文本分类是数据挖掘领域中重要的研究分支.通过对自适应遗传算法和朴素贝叶斯分类器的研究,提出一种基于自适应遗传算法的朴素贝叶斯分类算法.将该算法应用于中文文本分类中,可以生成最优贝叶斯分类器及最优属性集合,提高分类精度.  相似文献   

4.
针对可探测新颖类别的数据流分类算法不能处理混合属性且新颖类别探测准确率不高,引入VFDTc算法作为基分类器学习算法,并改进新颖类别探测方法以处理混合属性数据和提高新颖类别的探测准确率。实验结果表明,改进后的算法具有较高的分类模型学习效率、数据流分类精度和处理速率。  相似文献   

5.
针对原有的随机森林算法没有区别各个单分类器之间的分类优势,对分类器的组合方案进行优化,提出一种基于最大共识的模型组合算法.该算法将分类器的经验误差和泛化误差融入到分类器的权重计算中,充分发挥了单分类器的个性与优势,强化分类效果好的单分类器的优势,弱化分类效果较差的单分类器的劣势.实验结果表明,基于最大共识模型组合算法能够提升组合分类器的分类性能,在提高分类精度的同时,也具有较强的泛化能力,这一改进对于提升同类型多模型组合算法的性能具有一定指导意义.  相似文献   

6.
文本自动分类是数据挖掘和机器学习中非常重要的研究领域 .针对难以获得大量有类标签的训练集问题 ,提出了基于小规模标注语料的增量式Bayes文本分类算法 .该算法分两种情况处理 :第一种情况是新增样本有类标签 ,可直接重新计算样本属于某类别的条件概率 .第二种情况是新增样本无类标签 ,则利用现有分类器为其训练类标签 ,然后利用新样本来修正分类器 .实验结果表明 ,该算法是可行有效的 ,比Na veBayes文本分类算法有更高的精度 .增量式Bayes分类算法的提出为分类器的更新提供了一条新途径  相似文献   

7.
针对传统文本重叠区域检索方法存在精确性和查全性差的问题,提出了基于深度学习的大规模语义文本重叠区域检索方法。结合稀疏自动编码器与深度置信网络构建了混合模型,依据混合模型设计并构建了文本分类器,该分类器主要组成部分为文本预处理、特征学习、分类检索。针对文本集合中文本实行去噪、分词和去停止词等一系列预处理。最后,采用Softmax回归实现文本分类,将学习得到的文本特征当作分类器的输入得到文本重叠区域分类检索结果。经实验验证可知:该方法查准率与查全率均较高,表现出了可靠性与鲁棒性。  相似文献   

8.
分类是当前机器学习的重要研究内容之一,已取得了一定的进展.现有的文本分类方法大多基于VSM模型,而VSM未能有效地利用隐含在文本中的结构信息.同时,VSM下的样本空间常常是高维的,单一的降维策略可能会丢失有用信息.为改进现有算法的不足,提出了一种基于多模态模型的随机子空间分类集成算法MMRFSEn,有效地利用文本中的结构信息(单词分布位置的均值和标准差),且各基分类器是由随机选择的子空间构建而成.实验结果表明,该方法是有效可行的.  相似文献   

9.
针对传统文本分类算法准确率低和正确率分布不均匀的问题,提出了基于深度学习的文本分类算法。深度信念网络具有强大的学习能力,可以从高维的原始特征中提取高度可区分的低维特征,不仅能够更全面的考虑到文本信息量,而且能够进行快速分类。采用TF-IDF方法计算文本特征值,利用深度信念网络构造分类器进行精准分类。实验结果表明,与支持向量机、神经网络和极端学习机等常用分类算法相比,该算法有更高的准确率和实用性,为文本的分类研究开拓了新思路。  相似文献   

10.
基于随机子空间的多分类器集成   总被引:2,自引:0,他引:2  
提出了一种基于随机子空间的多分类器集成算法RFSEn.首先选择一个合适的子空间大小,然后随机选择特征子集并投影,并得到子空间上的基分类器,从而通过基分类器构成集成分类器,并由集成分类器来进行文本的分类.将该算法与单一分类器和基于重抽样技术的bagging算法进行了比较,在标准数据集上进行了实验.结果表明,该方法不仅优于单一分类器的分类性能,而且一定程度上优于bagging算法.  相似文献   

11.
文章研究了基于向量空间模型的文本分类中特征词权重算法,综合考虑特征词在文本中出现的位置信息,提出一种改进算法并给出实验结果。  相似文献   

12.
文本归类是处理大量文本数据自动分类的重要技术。基于粗集理论建立的林业文本信息归类系统,是在已知类别的训练集的基础上,通过分析训练数据样本,建立决策表产生区分矩阵构造出区分函数,并化简它,得到最小属性约简,最后应用Apriori算法产生最终分类的规则表,利用产生的规则表,可将林业文本信息数据进行自动归类。  相似文献   

13.
The objective of text classification is to parse in-coming unlabeled message or document data into prede-fined categories based on information extracted from atraining set of labeled messages or documents.A widerange of statistical and machine learningtechniques havebeen applied to textclassification,includingmultivariateregression models,nearest neighbor classifiers,probabi-listic Bayesian models,decision trees,neural networks,symbolic rule learning,and support vector machines.The support vec…  相似文献   

14.
为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。  相似文献   

15.
基于改进的kNN算法的中文网页自动分类方法研究   总被引:6,自引:0,他引:6  
概述了中文网页分类的一般过程,重点论述了在分类过程中特征词提取、训练库建立和文本分类算法等关键问题,针对向量空间模型的文本特征表示方法中特征词数量的多少与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,并且在文本相似度计算时,融入传统的特征向量的比较方法来对kNN算法进行改进,提出了基于特征词减少的改进kNN算法,提高了分类算法的效率和性能.  相似文献   

16.
KNFL算法是一种近年来在人脸识别领域得到广泛应用的算法,这种算法认为类中两点的连线也可以近似代表类的特征,把它应用于文本分类领域可以得到较好的分类效果,但是由于时间复杂度比较高,影响了其实用价值.本文提出了一种应用于文本分类的改进的KNFL算法,计算出类的中心点后再进行两次过滤,分别将离类中心点较远的特征点和特征线过滤掉,减少了训练集样本数目,在对分类精确度影响不大的情况下,改善了KNFL算法的分类效率,最后用实验验证了该算法的有效性.  相似文献   

17.
为了更好的对残缺文档进行分类,本文以基于支持向量机的文本分类方法(SVM)和卡方统计量(Chi-Square)的文本特征提取方法为背景,提出了有监督学习模式下的两种文本特征恢复算法以及在此基础上进行残缺文本分类的新方案。与传统的直接分类方案相较,该方案在分类前通过预先对文本中残缺词恢复,实现了残缺文本的部分特征恢复。实验表明,相较于传统方法,该方案在低残缺率下,对文本分类的影响不大;在高残缺率下,该方案能得到较好的分类效果。  相似文献   

18.
针对医学文本缺乏可量化数据结构,基于关键词模型的文本处理方法不适用的问题,在研究词之间潜在语义关联和关键词树结构的基础上,构造了一种基于潜在语义树的语义分析模型用于医学文本的数据挖掘。进一步地将隐含主题与潜在语义的研究相关联,设计出一种基于潜在狄利克雷分配和潜在语义树模型的文本处理方法,可针对不同类型的医学文本生成有一定可读性的自动批注。该方法形成的自动批注主观性低,其准确度和可读性均高于关键词模型的处理结果,可辅助医生进行医学文本的批注和分类,从而减轻其工作量。程序结果表明,该方法目前可应用于对医学图像所见形成诊断意见、对病人病历进行摘要形成和对病症描述给出对症处方等方面,批注的语义匹配度可达67.7%,文本的平均可读性为60.02%。  相似文献   

19.
提出了一种基于潜在语义分析(LSA)的相似文本匹配算法,并将其应用于自动评卷系统中.首先,在充分考虑词项之间相关性的基础上,在低维空间中表示学生答案文本与标准答案文本,然后利用奇异值分解方法模型对其进行了改进;其次,利用LSA技术,以学生答案文本与标准答案文本之间的余弦相似度作为相似性准则,根据相似度值确定该题的得分.实验结果表明,该算法充分考虑了文本语义信息,评分效果较好,是实现基于语义评卷系统的有益探索.  相似文献   

20.
为解决文本分类中存在的维数灾难、数据集噪声等问题,本研究提出一种利用非线性维数约简算法结合k-最邻近结点算法(k-nearest neighbor algorithm, k-NN)的文本分类算法。该算法首先对数据集进行去噪处理,再采用非线性流形学习中的局部线性嵌入算法恢复高维数据中的中低维流形结构,以实现数据约简,利用经过上述处理的文本数据学习k-NN分类器。实验结果表明,该算法能够有效提高文本分类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号