首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
文本自动分类是组织和管理文本信息的有力手段,可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确地定位所需的信息.目前,文本自动分类是信息检索领域中最前沿的研究热点之一,国内外均有大量学者从事这方面的研究.研究组对文本自动分类进行了深入细致的研究,针对文本自动分类目前存在的问题,提出了一些新的模型,大规模数据集上的实验表明该模型性能优异,表现优于很多方法.  相似文献   

2.
讨论了文本分类系统中的特征提取方法.探讨了文档频率(DF)、信息增益(IG)、互信息算法(MI)三种不同的特征提取方法对中文文本分类的影响,并提出了一种结合信息增益和互信息的特征提取方法.实验表明本文提出的特征提取方法一定程度上提高了中文文本分类准确性.  相似文献   

3.
为了有效解决中文文本分类问题,提高文本分类的准确性,提出一种基于TF-IDF和神经网络相结合的文本自动分类算法——TI-LSTM算法。算法根据语义情景提取相应特征,进行量化,通过长短期神经网络(LSTM)对量化后的特征进行训练并赋予权重,最后以特征权重为依据对中文文本信息进行评价。使用TI-LSTM算法可以在保留原文语义的情况下准确提取特征。将该算法应用到长春理工大学贫困生等级分类研究中。与传统的KNN、逻辑回归、朴素贝叶斯和LSTM分类方法进行了比较,训练和测试的准确率都有了较大的提升,准确率达到了86%以上。  相似文献   

4.
基于SVM的中文文本分类算法   总被引:1,自引:0,他引:1  
提出了一种基于支持向量机的中文文本分类算法,介绍了文本分类过程中的文本表示、特征提取和SVM算法等关键技术.最后进行了实验和分析,由实验结果可以看出,该方法在精确率和召回率等方面能够达到比较好的效果.  相似文献   

5.
海南发射场的海量文档缺乏有效的组织和管理,急需开发一种快速、有效的方法以实现文档的自动整理、归类。针对这一实际需求,基于Web技术和文本分类技术,通过Web服务器构建、训练文本数据收集、文本预处理、文本特征表示和分类模型训练,研发了一套服务器—客户端模式的航天文本分类系统。经测试,该分类系统在测试数据集上的准确率和召回率均达到90%以上,具有良好的分类性能。  相似文献   

6.
文本分类是数据挖掘领域中重要的研究分支.通过对自适应遗传算法和朴素贝叶斯分类器的研究,提出一种基于自适应遗传算法的朴素贝叶斯分类算法.将该算法应用于中文文本分类中,可以生成最优贝叶斯分类器及最优属性集合,提高分类精度.  相似文献   

7.
主要介绍了文本分类问题,讨论了文本分类所涉及的关键技术,包括中文分词,文本表示,特征选取方法,以及Rocchio、朴素贝叶斯、K近邻、决策树、神经网络和支持向量机等文本分类算法的原理和方法.最后,给出了基于文本分类技术的中文垃圾短信过滤方法的实验和结果.  相似文献   

8.
针对借助TRIZ理论进行发明创新的专利检索需要,提出利用文本挖掘技术实现对中文专利进行面向TRIZ发明原理的自动分类.文中首先对40个基本的TRIZ发明理论进行分析和重新分组,然后依据中科院的ICTCLAS分词系统对专利文本进行分词处理,采用信息增益IG和交叉熵CE特征选择算法进行特征降维,最后使用AlphaMiner基于最流行的SVM、NB和C4.5.分类算法对中文专利进行分类测试,结果表明借助于文本分类技术可以实现依据TRIZ发明原理对中文专利自动分类.  相似文献   

9.
对文本特征表示模型和文本特征提取方法进行了探讨,分析了分类效果的影响因素,设计了一种动态调整训练集的文本分类算法,并结合支持向量机验证了该分类系统的类别特征信息和分类适应性.  相似文献   

10.
使用有序词语移动距离特征进行中文文本蕴含识别   总被引:1,自引:0,他引:1  
提出了一种基于有序词语移动距离的中文文本蕴含识别方法,该方法基于word2vec词向量计算有序词语移动距离特征,进而利用有序词语移动距离特征和传统语言学特征通过支持向量机生成分类模型,然后使用分类模型进行蕴含识别,最终得到蕴含结果.该方法在RITE-VAL评测任务的CS数据上的MacroF1为0.629,超过RITE-VAL的最优评测结果(BUPTTeam,0.615).实验结果表明,该方法可以提升中文文本蕴含识别系统的性能.  相似文献   

11.
文本归类是处理大量文本数据自动分类的重要技术。基于粗集理论建立的林业文本信息归类系统,是在已知类别的训练集的基础上,通过分析训练数据样本,建立决策表产生区分矩阵构造出区分函数,并化简它,得到最小属性约简,最后应用Apriori算法产生最终分类的规则表,利用产生的规则表,可将林业文本信息数据进行自动归类。  相似文献   

12.
突发事件类别众多,若采用传统的平面文本分类方法对突发事件分类,模型训练所需计算量剧增,并且对测试文本分类时要和全部分类器进行比较,导致极大的时间开销。根据突发事件类别体系结构层次性特点,提出了一种基于领域特征词的突发事件层次分类方法,将领域特征词自动提取算法用于特征选择,并在每个分类平面上采用改进的基于二叉树的SVM多类分类算法构建分类器。实验证明,基于领域特征词提取算法的特征选择方法优于传统方法,采用层次分类方法对突发事件分类,降低了时间复杂度,同时改善了分类效果,有效降低了错误分类的风险。  相似文献   

13.
The objective of text classification is to parse in-coming unlabeled message or document data into prede-fined categories based on information extracted from atraining set of labeled messages or documents.A widerange of statistical and machine learningtechniques havebeen applied to textclassification,includingmultivariateregression models,nearest neighbor classifiers,probabi-listic Bayesian models,decision trees,neural networks,symbolic rule learning,and support vector machines.The support vec…  相似文献   

14.
为了利用商品文本标题实现商品自动分类,提出一种基于高层特征融合的商品分类模型.首先,提出基于字嵌入和词嵌入的文本底层特征表示法,进而获得更强的商品标题结构特征表达;其次,提出了联合自注意力、卷积神经网络和通道注意力的机制,对文本标题的底层特征进行增强并获得高层增强特征;最后,通过将文本的字嵌入和词嵌入的高层增强特征进行融合,最终获得商品文本标题的综合特征,并实现商品自动分类.以商品标题语料作为数据集进行了实验,实验结果表明,该模型对三级商品类别的分类精度能够达到84.348%,召回率和F1值分别达到了47.8%和49.4%,优于现有可用于商品文本标题分类的先进短文本分类方法.  相似文献   

15.
随着网络技术的发展,文本信息急速增长。文本内容自动处理的相关研究无疑成为最急迫的任务。文章从一些文本内容相关的应用研究开始介绍,其中简要介绍了自动摘要技术、自动标引、信息抽取、文本分类和聚类等,期冀通过对这些应用研究的了解,认识到要重视文本内容的基础研究,从词语层到篇章层的深入分析才是文本内容处理研究发展的最终突破点。  相似文献   

16.
目前有多种特征提取方法用于文本自动分类,其中CHI方法效果较好,研究发现CHI方法存在着词与类别的无独立性假设及计算复杂度高等缺点,提出一种改进了的CHI方法ICHI(ImprovedCHI),通过分类实验仿真数据显示,在SVM与KNN分类中这种改进后的特征提取方法ICHI特征提取效果优于传统的CHI方法,改进后的方法ICHI能提高文本分类的准确率,适合局部特征提取.  相似文献   

17.
基于特征选择技术的情感词权重计算   总被引:2,自引:0,他引:2  
在文本情感分析中,情感词典的构建至关重要,然而目前这方面的研究大多集中在简单的词语极性判别上,有关情感词的权重赋值研究较少,且已有的权重赋值方法基本上都需要人工辅助来选取基准词,这给实际应用带来很大的困难. 针对此问题,提出了一种自动的基于特征选择技术的情感词权重计算方法. 首先提出了词语情感权重与文本情感倾向的相关假设;然后针对情感分类,结合二元分类的特性改进了信息增益( information gain, IG)和卡方统计量( chi-square,CHI) ,将特征选择技术应用于情感词权重计算. 实验结果表明:将计算所得的带情感权重的情感词库用于文本情感分类能够提升分类精度.  相似文献   

18.
文本分类或文本匹配是解决基于常见问题和解答(FAQ)问答的2个途径.单独使用分类方法不能有效利用标准问题本身的信息,而单独使用匹配方法时,负样本的选择很困难,为此,提出一类将文本分类和文本匹配方法相结合的模型,不仅能选择真正需要区分的负例,并且能够有效利用标准问题的信息.实验结果表明,提出的模型在多个FAQ问答数据上能达到最好性能.  相似文献   

19.
使用深度学习技术进行文本情感分类是近年来自然语言处理领域的研究热点,好的文本表示是提升深度学习模型分类性能的关键因素。由于短文本蕴含情感信息较少、训练时易受噪声干扰,因此提出一种融合对抗训练的文本情感分析模型PERNIE RCNN。该模型使用ERNIE预训练模型对输入文本进行向量化,初步提取文本的情感特征。随后在ERNIE预训练模型的输出向量上添加噪声扰动,对原始样本进行对抗攻击生成对抗样本,并将生成的对抗样本送入分类模型进行对抗训练,提高模型面临噪声攻击时的鲁棒性。实验结果表明, PERNIE RCNN模型的文本分类性能更好,泛化能力更优。  相似文献   

20.
随着文本数据的快速积累,文本自动分析成为管理和利用海量文本数据的重要手段。其中,文本聚类是文本分析的基本任务之一。本文着重介绍文本分析与谱聚类的研究进展,阐述目前在文本分析中应用谱聚类技术的主要方法,旨在为文本分析中谱聚类方法的应用提供引导作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号