首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
经过训练和统计对每一类文本形成特征的权重向量,利用K-最近距离的方法对测试集进行分类.Sleepingexpert算法采用正权重和负权重较好地描述了多义词的特性,该文在原算法中插入了一种权重补偿模块,其目标是实现权重和当前概念的一致性,具有更好的分类性能.  相似文献   

2.
为使文本向量能准确表达文本信息、提升文本分类效果,提出了一种强化类别贡献的文本特征权重方案.利用后验概率定义了特征词的类别贡献度函数,结合相关频率权重因子,得到兼顾类别贡献度与类间分布差异的文本特征权重量化方案.在4个标准语料集上的测试结果表明,该方案实现简单,能更准确地刻画不同特征对分类的贡献差异,优化文本表示,并显著地提高文本分类效果.  相似文献   

3.
一种基于概念层次的文本特征权重计算方法   总被引:1,自引:0,他引:1  
特征权重计算是文本表示的关键,权重计算方法的优劣直接影响文本分类和聚类的准确度。基于词形和词频统计的特征加权方法过于近似和粗糙,不能有效突出具有较强类别区分度的重要特征,难以有效区分两类特征,造成了高维稀疏问题,使文本分类性能不够理想,这是特征权重计算的主要障碍。提出一种基于概念层次的特征权重计算方法,将词空间转移为概念空间,在概念层次上引入特征支持度与类别强度两个参数对特征权重进行调整。实验表明,新的方法表现了较好的分类性能,在空间维度的压缩与计算效率上也有明显的改善。  相似文献   

4.
提出了一种改进的基于特征提取的二级文本分类方法.通过提取出文本的特征项并计算其权重值,将文本表示成由特征项和权重值组成的向量,利用向量的夹角余弦计算二级分类模型下文本之间的相似度,可以更准确快速地定位海量信息.实验结果表明本文提出的分类方法的准确率优于传统的类中心分类法,提高了系统的适应性和分类能力.  相似文献   

5.
基于特征选择技术的情感词权重计算   总被引:2,自引:0,他引:2  
在文本情感分析中,情感词典的构建至关重要,然而目前这方面的研究大多集中在简单的词语极性判别上,有关情感词的权重赋值研究较少,且已有的权重赋值方法基本上都需要人工辅助来选取基准词,这给实际应用带来很大的困难. 针对此问题,提出了一种自动的基于特征选择技术的情感词权重计算方法. 首先提出了词语情感权重与文本情感倾向的相关假设;然后针对情感分类,结合二元分类的特性改进了信息增益( information gain, IG)和卡方统计量( chi-square,CHI) ,将特征选择技术应用于情感词权重计算. 实验结果表明:将计算所得的带情感权重的情感词库用于文本情感分类能够提升分类精度.  相似文献   

6.
提出了一种快速的文本倾向性分类方法,即采用类别空间模型描述词语对类别的倾向性,基于词的统计特征实现分类;针对倾向性分类的复杂性,在综合考虑词频、词的文本频、词的分布三种统计特征的基础上,提出一种新的二次特征提取方法:第一次特征提取,采用组合特征提取方法,除去低频词以及在各类中均匀分布的噪音词;第二次特征提取,去除类别倾向性不明显的词。实验表明该分类方法不仅具有较高的分类性能,而且运行速度快,在信息检索、信息过滤、内容安全管理等方面具有一定的实用价值。  相似文献   

7.
文本分类是当今信息检索和数据挖掘等领域的研究热点,而特征加权是文本分类过程中的重要步骤.为了提高分类质量,文章通过深入分析粗糙集理论和逆文本频率加权的思想,提出了一种基于粗糙集的特征加权方法,从近似分类精度和近似分类质量两个方面考虑特征词对分类的全局作用,将文本的类别属性信息引入到权重中.通过文本分类实验证明,该加权方法有助于提高分类系统的分类效果.  相似文献   

8.
传统的信息检索方法一般都采用对文本内容的词频进行分析的统计方法,这种索引方法仅仅考虑词语在文本中的出现率,因此不能抽取出表达文本语义的索引词。为了解决这个问题,本文提出了一种新的信息检索方法,即基于概念的权重索引方法。本方法引入了概念类的概念,并且提出了用概念之间存在的关系来表示文档中的词汇和概念的语义重要度。本方法比单纯的词汇信息更能体现文本的概念特征,提高信息检索的性能;同时还能降低文本向量的维数,减少计算量,提高检索效率。  相似文献   

9.
为了有效解决中文文本分类问题,提高文本分类的准确性,提出一种基于TF-IDF和神经网络相结合的文本自动分类算法——TI-LSTM算法。算法根据语义情景提取相应特征,进行量化,通过长短期神经网络(LSTM)对量化后的特征进行训练并赋予权重,最后以特征权重为依据对中文文本信息进行评价。使用TI-LSTM算法可以在保留原文语义的情况下准确提取特征。将该算法应用到长春理工大学贫困生等级分类研究中。与传统的KNN、逻辑回归、朴素贝叶斯和LSTM分类方法进行了比较,训练和测试的准确率都有了较大的提升,准确率达到了86%以上。  相似文献   

10.
为改善传统互信息方法在网页分类中的效果,对互信息方法在词频、类间分布以及低信息量特征方面进行改善,提出了一种基于互信息和关联规则的文本特征提取方法。改进了传统互信息方法,引进词频和类间平衡因子,从而避免互信息对低词频特征值放大;改进互信息特征提取后,计算低信息量特征与高信息量特征的关联规则,以置信度为概率将低信息特征替换为对应规则中的高信息量特征;将置换后的样本集再进行向量化。实验表明,该方法相比传统的互信息方法具有较好的分类性能,F1值平均提高了约6%。将该方法应用于网页分类中,结果显示改进后的互信息方法在网页分类中具有较好的性能。  相似文献   

11.
文本自动分类是数据挖掘和机器学习中非常重要的研究领域 .针对难以获得大量有类标签的训练集问题 ,提出了基于小规模标注语料的增量式Bayes文本分类算法 .该算法分两种情况处理 :第一种情况是新增样本有类标签 ,可直接重新计算样本属于某类别的条件概率 .第二种情况是新增样本无类标签 ,则利用现有分类器为其训练类标签 ,然后利用新样本来修正分类器 .实验结果表明 ,该算法是可行有效的 ,比Na veBayes文本分类算法有更高的精度 .增量式Bayes分类算法的提出为分类器的更新提供了一条新途径  相似文献   

12.
文本归类是处理大量文本数据自动分类的重要技术。基于粗集理论建立的林业文本信息归类系统,是在已知类别的训练集的基础上,通过分析训练数据样本,建立决策表产生区分矩阵构造出区分函数,并化简它,得到最小属性约简,最后应用Apriori算法产生最终分类的规则表,利用产生的规则表,可将林业文本信息数据进行自动归类。  相似文献   

13.
为了更好的对残缺文档进行分类,本文以基于支持向量机的文本分类方法(SVM)和卡方统计量(Chi-Square)的文本特征提取方法为背景,提出了有监督学习模式下的两种文本特征恢复算法以及在此基础上进行残缺文本分类的新方案。与传统的直接分类方案相较,该方案在分类前通过预先对文本中残缺词恢复,实现了残缺文本的部分特征恢复。实验表明,相较于传统方法,该方案在低残缺率下,对文本分类的影响不大;在高残缺率下,该方案能得到较好的分类效果。  相似文献   

14.
KNFL算法是一种近年来在人脸识别领域得到广泛应用的算法,这种算法认为类中两点的连线也可以近似代表类的特征,把它应用于文本分类领域可以得到较好的分类效果,但是由于时间复杂度比较高,影响了其实用价值.本文提出了一种应用于文本分类的改进的KNFL算法,计算出类的中心点后再进行两次过滤,分别将离类中心点较远的特征点和特征线过滤掉,减少了训练集样本数目,在对分类精确度影响不大的情况下,改善了KNFL算法的分类效率,最后用实验验证了该算法的有效性.  相似文献   

15.
基于改进的kNN算法的中文网页自动分类方法研究   总被引:6,自引:0,他引:6  
概述了中文网页分类的一般过程,重点论述了在分类过程中特征词提取、训练库建立和文本分类算法等关键问题,针对向量空间模型的文本特征表示方法中特征词数量的多少与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,并且在文本相似度计算时,融入传统的特征向量的比较方法来对kNN算法进行改进,提出了基于特征词减少的改进kNN算法,提高了分类算法的效率和性能.  相似文献   

16.
文本分类中一种新的特征选择方法   总被引:2,自引:2,他引:0  
文本分类面临的一个主要问题就是如何降低文本巨大的特征维数,并且保持分类精度甚至提高分类精度。针对该问题,提出了一种基于信息论的特征再提取方法,旨在删除稀疏分布的特征、保留有利于分类的特征。使用该方法时配合特征选择方法,可进一步降低特征维数。实验结果表明,该方法能将特征维数降低到几百维,而且能提高分类器的性能。  相似文献   

17.
讨论了文本分类系统中的特征提取方法.探讨了文档频率(DF)、信息增益(IG)、互信息算法(MI)三种不同的特征提取方法对中文文本分类的影响,并提出了一种结合信息增益和互信息的特征提取方法.实验表明本文提出的特征提取方法一定程度上提高了中文文本分类准确性.  相似文献   

18.
特征选择和分类算法是文本分类中的两个关键技术,提出了基于主成分分析和KNN相结合的文本分类方法。该方法利用主成分分析对文本向量的高维空间进行特征选择,为克服因类别特征选择不当带来的不利影响,使用KNN算法进行分类可以最大程度地减少分类过程中的误差。为了验证方法的有效性,针对UCI标准数据集进行仿真实验。实验结果显示,PCA-KNN方法优于主成分分析和随机森林相结合的方法,能在一定程度上提高文本分类的精度。  相似文献   

19.
针对文本分类中信息增益降维方法的不足,提出了一种基于相对文档频的平衡信息增益(RDFBIG)降维方法.实验结果表明,RDFBIG能有效消除不同类别之间语料规模对分类精度的影响,取得了较好的分类效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号