首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 981 毫秒
1.
海南发射场的海量文档缺乏有效的组织和管理,急需开发一种快速、有效的方法以实现文档的自动整理、归类。针对这一实际需求,基于Web技术和文本分类技术,通过Web服务器构建、训练文本数据收集、文本预处理、文本特征表示和分类模型训练,研发了一套服务器—客户端模式的航天文本分类系统。经测试,该分类系统在测试数据集上的准确率和召回率均达到90%以上,具有良好的分类性能。  相似文献   

2.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的含量。实验结果显示,这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

3.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核一心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的舍量。实验结果显示.这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

4.
文本自动分类是组织和管理文本信息的有力手段,可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确地定位所需的信息.目前,文本自动分类是信息检索领域中最前沿的研究热点之一,国内外均有大量学者从事这方面的研究.研究组对文本自动分类进行了深入细致的研究,针对文本自动分类目前存在的问题,提出了一些新的模型,大规模数据集上的实验表明该模型性能优异,表现优于很多方法.  相似文献   

5.
为解决在法院数据信息化过程中,海量的法院文书存在缺乏自动管理分类的问题,提出一种基于字符级卷积神经网络的文本分类模型。模型通过卷积神经网络进行特征提取,能够精确有效地解决文本分类问题。实验结果证明,该模型可以实现在测试集上准确率99.67%的分类,且训练用时只有常用循环神经网络算法的50%。  相似文献   

6.
数据分类是数据挖掘的一个重要功能,神经网络以其良好的抗噪性和鲁棒性而成为一种广泛使用的数据挖掘工具,尤其是运用在数据分类中.但是,神经网络对用户来说是一个黑箱,所获得的知识隐含在神经网络的连接权中而难以理解.针对这种情况,建立了一个基于神经网络的数据分类系统模型,通过数据处理、网络训练、规则抽取等几个阶段,达到将获得的知识清晰化的目的.在系统中,首先对连续性数据作规一化和对语义性数据进行编码;然后经过网络训练而获取知识;规则抽取采用功能性方法:即把神经网络视为黑盒,随机产生输入得到相应的输出组成实例,然后采用Rough集的方法进行约简得出规则.  相似文献   

7.
预训练语言模型被广泛运用在多项自然语言处理任务中,但是对于不同的任务没有精细的微调.针对文本分类任务,提出基于探测任务的语言模型微调方法,利用探测任务训练模型特定的语言学知识,可提高模型在文本分类任务上的性能.设计了6个探测任务,覆盖句子浅层、语法和语义三方面信息.最后在6个文本分类数据集上验证了本文的方法,使分类错误率得到改善.  相似文献   

8.
对文本特征表示模型和文本特征提取方法进行了探讨,分析了分类效果的影响因素,设计了一种动态调整训练集的文本分类算法,并结合支持向量机验证了该分类系统的类别特征信息和分类适应性.  相似文献   

9.
针对已标记数据与未标记数据分布不一致可能导致半监督分类器性能降低的不足,提出了一种基于特征映射的半监督文本分类算法.首先通过不同的特征选择方法,分别在训练集的已标记数据、未标记数据以及测试集数据中选取各自的特征集,并初始化特征的权值;在此基础之上,分别建立已标记数据与未标记数据、已标记数据与测试集数据、未标记数据与测试集数据之间的映射函数,并利用这3个特征映射函数重新计算特征的权重;最后利用期望最大比(expectation maximization,EM)算法进行半监督文本分类.在标准数据集上的实验结果表明:提出的算法是有效的.  相似文献   

10.
将连续数据离散化并将已有知识规则的依赖度作为神经网络的初始权值,构建新的网络结构并对其动态训练,给出其具体网络训练算法.从训练后的网络权值中利用正确的分类及该网络结构具有的性质,从而给出其具体的规则抽取算法,并将抽取的具有冗余性的产生式规则利用粗集理论进一步对其精化处理,最后得出最简化的产生式知识规则.充分结合神经网络及粗集理论的优点,探索两者的有机结合无疑对智能信息处理系统的研究具有重要的现实意义.  相似文献   

11.
基于K-最近距离的自动文本分类的研究   总被引:14,自引:1,他引:13  
提出并实现了利用统计词频信息和语言信息相结合的方法选择特征,计算特征的权重值时不仅考虑词频,还利用了特征的集中度、分散度.经过训练和统计对每一类文本形成特征的权重向量,利用K-最近距离的方法对测试集进行分类.对英文文本的测试结果表明,该算法提高了文本分类的准确率.  相似文献   

12.
经过训练和统计对每一类文本形成特征的权重向量,利用K-最近距离的方法对测试集进行分类.Sleepingexpert算法采用正权重和负权重较好地描述了多义词的特性,该文在原算法中插入了一种权重补偿模块,其目标是实现权重和当前概念的一致性,具有更好的分类性能.  相似文献   

13.
特征选择和分类算法是文本分类中的两个关键技术,提出了基于主成分分析和KNN相结合的文本分类方法。该方法利用主成分分析对文本向量的高维空间进行特征选择,为克服因类别特征选择不当带来的不利影响,使用KNN算法进行分类可以最大程度地减少分类过程中的误差。为了验证方法的有效性,针对UCI标准数据集进行仿真实验。实验结果显示,PCA-KNN方法优于主成分分析和随机森林相结合的方法,能在一定程度上提高文本分类的精度。  相似文献   

14.
差别矩阵属性约简是粗糙集重要约简方法之一,但在处理不一致大数据集时存在不足。为此,提出了决策差别矩阵的概念,并给出基于决策差别矩阵的属性约简定义,同时研究了由该定义获得的约简与正区域约简之间的等价性。为了提高求解效率,给出水平划分决策表的方法,指出将划分的子决策表分配到不同的网络节点上,基于子决策差别矩阵可并行完成核属性和属性约简;并设计了并行约简算法。实例分析和UCI中数据集的实验比较表明所提出的约简算法是正确的、高效的。  相似文献   

15.
针对文本分类问题,从分片线性学习的角度出发,提出了一种文本分类的组合凸线性感知器模型.首先,对文本样本集进行预处理,包括特征选择、特征项赋权等;然后,分别利用生长支持组合凸线性感知器算法(growing support multiconlitron algorithm,GSMA)和支持组合凸线性感知器算法(support multiconlitron algorithm,SMA)构造组合凸线性感知器,对样本集进行分类.该模型基于支持向量机的最大间隔思想,通过集成线性分类器,实现了对2类数据的划分,具有计算简单、适应能力强的优点.在标准文本数据集上的实验结果表明:该模型所构造的分类器具有良好的文本分类性能,与其他典型文本分类方法的对比也说明了该方法的有效性.  相似文献   

16.
文本情感极性分类是文本情感分析首先要解决的关键问题。在分析影响文本情感分类的各类因素的基础上,首先构建了情感词典,并进行情感特征选取以及情感特征加权,然后使用SVM分类的方法对文本进行情感识别及分类,最后在语料数据集的基础上,在单机平台上和Spark分布式计算平台上执行分类模型,对比分析其分类精度和时间代价。实验结果验证了本文构建的情感极性分类模型在单机和分布式云平台上中的有效性。  相似文献   

17.
文本自动分类是数据挖掘和机器学习中非常重要的研究领域 .针对难以获得大量有类标签的训练集问题 ,提出了基于小规模标注语料的增量式Bayes文本分类算法 .该算法分两种情况处理 :第一种情况是新增样本有类标签 ,可直接重新计算样本属于某类别的条件概率 .第二种情况是新增样本无类标签 ,则利用现有分类器为其训练类标签 ,然后利用新样本来修正分类器 .实验结果表明 ,该算法是可行有效的 ,比Na veBayes文本分类算法有更高的精度 .增量式Bayes分类算法的提出为分类器的更新提供了一条新途径  相似文献   

18.
提出一种基于文本分类技术的评审专家自动推荐模型,通过文本分类技术对评审专家所发表的论文进行所属学科领域的分类,进而判断出评审专家的主要研究领域。模型采用了基于TF/IDF特征权重阈值的向量空间模型算法和改进后的ATSVM分类算法。实验结果表明,改进后的ATSVM分类算法可以增加交互的过程使训练得到的分类器具备自学习的能力,改进后的主动学习SVM分类器在多类别的分类上能够精确分类并且提高分类速度。  相似文献   

19.
基于改进的kNN算法的中文网页自动分类方法研究   总被引:6,自引:0,他引:6  
概述了中文网页分类的一般过程,重点论述了在分类过程中特征词提取、训练库建立和文本分类算法等关键问题,针对向量空间模型的文本特征表示方法中特征词数量的多少与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,并且在文本相似度计算时,融入传统的特征向量的比较方法来对kNN算法进行改进,提出了基于特征词减少的改进kNN算法,提高了分类算法的效率和性能.  相似文献   

20.
KNFL算法是一种近年来在人脸识别领域得到广泛应用的算法,这种算法认为类中两点的连线也可以近似代表类的特征,把它应用于文本分类领域可以得到较好的分类效果,但是由于时间复杂度比较高,影响了其实用价值.本文提出了一种应用于文本分类的改进的KNFL算法,计算出类的中心点后再进行两次过滤,分别将离类中心点较远的特征点和特征线过滤掉,减少了训练集样本数目,在对分类精确度影响不大的情况下,改善了KNFL算法的分类效率,最后用实验验证了该算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号