首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
智能文本分类系统的研究与设计   总被引:10,自引:1,他引:9  
本文介绍了基于实例学习建立自动文本分类器的方法.通过对文本自动分类的原理的剖析。介绍了文本自动分类系统建立的基本过程,同时详细地说明和比较了文档表示、功能选择以及机器学习方法以及相关算法。  相似文献   

2.
吕琳  刘玉树 《计算机科学》2004,31(Z1):24-26
文本自动分类技术是面向Internet搜索引擎的重要研究方向和关键技术.它是指在给定的分类体系下,根据文本的内容自动确定文本关联类别的过程.本文总结和跟踪了各种常用和最新的文本分类的技术、算法及其适用范围,对评价与比较分类器性能的定理和方法进行了分析,并简述了独立于算法的机器学习.  相似文献   

3.
贝叶斯算法在文本自动分类系统中的应用   总被引:3,自引:0,他引:3  
文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文将基于贝叶斯算法的文本分类技术。应用于Web文档进行自动分类,实验结果表明效果显著。  相似文献   

4.
针对中文文本自动分类算法的评估体系   总被引:1,自引:0,他引:1  
中文文本自动分类能够帮助人们更有效地利用不断膨胀的海量中文信息.现有中文文本自动分类算法基于不同原理,性能各异,适用于不同情况.对于分类算法的比较评估能够确定某个分类算法的适用环境和性能特征.目前缺乏针对中文文本自动分类算法的系统评估体系.本文将引入一个评估体系,并基于该体系实现一个开放的研究平台,得出若干已有中文文本自动分类算法的比较结果.  相似文献   

5.
在非结构化数据挖掘结构模型,即发现特征子空间模型(DFSSM)的运行机制下,提出了一种新的文本分类算法——基于DFSSM 的文本分类(TCDFSSM) 算法。该算法在文本训练及分类阶段的基础上增加了自动反馈阶段,使得TCDFSSM具有自学习能力,并给出了文本分类过程反馈阈值的选取算法。结果表明,该算法分类效果良好,其自学习能力、适应性及鲁棒性更加优越。  相似文献   

6.
基于特征相关性的汉语文本自动分类模型的研究   总被引:17,自引:1,他引:17  
本文提出一种基于预定义类别与文本特征之间相关性的自动分类算法,并在文中详细阐述了汉语文本自动分类模型的设计与实现过程。为测试分类模型实现性能,建立具有12类别的分类体系,并构造包含近500篇汉语新闻语料的测试集。实验结果表明,评价自动分类算法的两个重要指标:查全率和查准率,都比较令人满意。  相似文献   

7.
为了提高文本自动分类准确率,提出一种改进的蜂群优化神经网络的选择特征的文本数据挖掘算法.该算法将文本特征选择转换成一个多目标优化问题,以特征维数最少、分类正确率最高为选择标准,采用蚁群算法找到最优特征子集,最后神经网络建立文本自动分类器,进行仿真实验测试算法性能.仿真实验结果表明,提出的方法从高维文本最优文本特征,提高了文本自动分类的正确率和识别效率,是一种有效的网络文本挖掘算法.  相似文献   

8.
基于隐马尔可夫模型的文本分类算法   总被引:2,自引:0,他引:2  
杨健  汪海航 《计算机应用》2010,30(9):2348-2350
自动文本分类领域近年来已经产生了若干成熟的分类算法,但这些算法主要基于概率统计模型,没有与文本自身的语法和语义建立起联系。提出了将隐马尔可夫序列分析模型(HMM)用于自动文本分类的算法,首先构造表示文档类别的特征词集合,并以文档类别的特征词序列作为不同HMM分类器的观察序列,而HMM的状态转换序列则隐含地表示了不同类别文档内容的形成演化过程。分类时,具有最大生成概率的HMM分类器类标即为测试文档的分类结果。该算法构造的分类器模型一定程度上体现了不同类别文档的语法和语义特征,并可以实现多类别的自动文本分类,分类效率较高。  相似文献   

9.
中文文本分类器的设计   总被引:6,自引:0,他引:6  
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类型的过程。文章应用球形的k-均值算法确定每个文本的类标签,并通过Boosting算法构建分类器。构建的分类器具有以下特点:分类器的设计针对未知类标签的语料库,实用性好;分类器能随着语料库中文本的变化而增加新的类,具有很好的可扩展性;分类器基于Boosting算法,具有很好的分类精度。  相似文献   

10.
对教学反思内容的准确评估是教师基于教学反思过程提升其专业能力的重要保障。基于改进的K-Means算法对相同主题的教学反思文本进行聚类,通过给定初始聚类中心K的取值范围使其可以在给定范围内自动增加,在聚类过程中加入相似度阈值以限定文本间相似度的取值范围,实现对教学反思文本的分类和对自我反思文本的定位。实验结果表明改进的K—Means算法在反思文本聚类的准确率和稳定性方面比传统算法有所提高,且能根据教学反思内容准确地进行自动分类。  相似文献   

11.
Bayes文本分类器的改进方法研究   总被引:4,自引:2,他引:4  
鲁明羽 《计算机工程》2006,32(17):63-65
在文本分类领域,Bayes分类器是一种常用且效果较好的、基于概率的分类器,具有较严密的理论基础。该文对朴素Bayes文本分类器进行了分析,提出了利用权值调整机制改善其分类性能的方法,以及在缺乏大量训练文本的情况下,利用EM算法进行非监督Bayes分类的方法,并讨论了如何运用启发式方法确定Bayes网络结构,在更贴近真实环境的情况下进行文本分类。  相似文献   

12.
文本分类作为自然语言处理中一个基本任务,在20世纪50年代就已经对其算法进行了研究,现在单标签文本分类算法已经趋向成熟,但是对于多标签文本分类的研究还有很大的提升空间。介绍了多标签文本分类的基本概念以及基本流程,包括数据集获取、文本预处理、模型训练和预测结果。介绍了多标签文本分类的方法。这些方法主要分为两大类:传统机器学习方法和基于深度学习的方法。传统机器学习方法主要包括问题转换方法和算法自适应方法。基于深度学习的方法是利用各种神经网络模型来处理多标签文本分类问题,根据模型结构,将其分为基于CNN结构、基于RNN结构和基于Transfomer结构的多标签文本分类方法。对多标签文本分类常用的数据集进行了梳理总结。对未来的发展趋势进行了分析与展望。  相似文献   

13.
针对现有深度学习方法在文本情感分类任务中特征提取能力方面的不足,提出基于扩展特征和动态池化的双通道卷积神经网络的文本情感分类算法.首先,结合情感词、词性、程度副词、否定词和标点符号等多种影响文本情感倾向的词语特征,形成一个扩展文本特征.然后,把词向量特征与扩展文本特征分别作为卷积神经网络的两个输入通道,采用动态k-max池化策略,提升模型提取特征的能力.在多个标准英文数据集上的文本情感分类实验表明,文中算法的分类性能不仅高于单通道卷积神经网络算法,而且相比一些代表性算法也具有一定的优势.  相似文献   

14.
情感分析已经成为当今自然语言处理领域的热点问题。对于文本的自动化、半监督式的情感分析研究具有广泛的理论和实用价值。基于情感词典的情感倾向分析方法是文本情感分析的一种重要 手段。然而,中文词汇在不同领域中的情感倾向不尽相同,一词多义现象明显。同时,不同领域中的情感词也具有专业性、领 域性的特点。针对这些问题,本文提出一种基于词向量相似度的半监督情感极性判断算法 (Sentiment orientation from word vector,SO-WV),并依据该算法设计出一种跨领域的中文情感词典构建方法。实验证明,本文所设计的情感词典构建方法能有效地对情感词情感倾向进行判断。算法不仅在不同领域的情感词典 建立上具有良好的可移植性,同时还具有专业性、领域性的特点。  相似文献   

15.
基于TF-IDF和余弦相似度的文本分类方法   总被引:1,自引:0,他引:1  
文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤: 基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。  相似文献   

16.
通过用于垃圾文本流过滤的在线文本分类研究,提出了一种新的条件概率集成方法。采用语汇序列表示文本,使用索引结构存储分类知识,设计实现了分类模型的在线训练算法和在线分类算法。抽取电子邮件和手机短信的多种文本特征,分别在TREC07P电子邮件语料和真实中文手机短信语料上进行了垃圾信息过滤实验。实验结果表明,提出的方法能够获得很好的垃圾信息过滤效果。  相似文献   

17.
属性级情感分类是情感分析领域中一个细粒度的情感分类任务,旨在判断文本中针对某个属性的情感极性.现有的属性级情感分类方法大多是使用同一种语言的标注文本进行模型的训练与测试,而现实中很多语言的标注文本规模并不足以训练一个高性能的模型,因此跨语言属性级情感分类是一个亟待解决的问题.跨语言属性级情感分类是指利用源语言文本的语义...  相似文献   

18.
This article presents a minimally supervised approach to question classification on fine-grained taxonomies. We have defined an algorithm that automatically obtains lists of weighted terms for each class in the taxonomy, thus identifying which terms are highly related to the classes and are highly discriminative between them. These lists have then been applied to the task of question classification. Our approach is based on the divergence of probability distributions of terms in plain text retrieved from the Web. A corpus of questions with which to train the classifier is not therefore necessary. As the system is based purely on statistical information, it does not require additional linguistic resources or tools. The experiments were performed on English questions and their Spanish translations. The results reveal that our system surpasses current supervised approaches in this task, obtaining a significant improvement in the experiments carried out.  相似文献   

19.
基于模糊软集合理论的文本分类方法   总被引:3,自引:0,他引:3  
为提高文本分类精度,提出一种基于模糊软集合理论的文本分类方法。该方法把文本训练集表示成模糊软集合表格形式,通过约简、构造软集合对照表方法找出待分类文本所属类别,并针对文本特征提取过程中由于相近特征而导致分类精度下降问题给出一种基于正则化互信息特征选择算法,有效地解决了上述问题。与传统的KNN和SVM分类算法相比,模糊软集合方法在文本分类的精度和准度上都有所提高。  相似文献   

20.
随着网络购物的高速发展,网络商家和购物者在网络交易活动中产生了大量的交易数据,其中蕴含着巨大的分析价值。针对社交电商商品文本的文本分类问题,为了更加高效准确地判断文本所描述商品的类别,提出了一种基于BERT模型的社交电商文本分类算法。首先,该算法采用BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型来完成社交电商文本的句子层面的特征向量表示,随后有针对性地将获得的特征向量输入分类器进行分类,最后采用社交电商文本的数据集进行算法验证。实验结果表明,经过训练的模型在测试集上的分类结果F1值最高可达94.61%,高出BERT模型针对MRPC的分类任务6%。因此,所提社交电商文本分类算法能够较为高效准确地判断文本所描述商品的类别,有助于进一步分析网络交易数据,从海量数据中提取有价值的信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号