首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
针对短文本信息量少、特征稀疏的特点,提出一种基于LDA主题扩展的多类SVM短文本分类方法。在短文本基础上,利用LDA主题模得到文档的主题分布,将主题中的词扩充到原短文本的特征中,在特征空间上使用基于经典权重计算方法的多类SVM分类器进行分类。实验结果表明,在各个类别上的查准率、查全率和F1值都有所提高,验证了该方法的可行性。  相似文献   

2.
文本分类中特征项权重的计算方法   总被引:4,自引:0,他引:4  
特征项权重的计算方法是基于向量空间模型的文本分类中一个核心问题,计算方法的选择关系到最终分类的效果.本文对文本分类中特征项权重的计算方法进行了说明,并根据实验对几种特征项权重的计算方法进行了比较。  相似文献   

3.
突发事件类别众多,若采用传统的平面文本分类方法对突发事件分类,模型训练所需计算量剧增,并且对测试文本分类时要和全部分类器进行比较,导致极大的时间开销。根据突发事件类别体系结构层次性特点,提出了一种基于领域特征词的突发事件层次分类方法,将领域特征词自动提取算法用于特征选择,并在每个分类平面上采用改进的基于二叉树的SVM多类分类算法构建分类器。实验证明,基于领域特征词提取算法的特征选择方法优于传统方法,采用层次分类方法对突发事件分类,降低了时间复杂度,同时改善了分类效果,有效降低了错误分类的风险。  相似文献   

4.
为解决广播自动识别问题,提出一种基于凝聚式层次聚类的调频广播自动识别方法。利用无线电监测设备获取正常广播和黑广播的音频数据,将音频数据转写成文本,对文本数据进行分析处理,计算文本数据的特征权重,构建向量空间模型并进行文本层次聚类分析。将各类文本提取关键词,作为识别广播属性和话题类别的初始语料库,同时在自动识别过程中,将属性未知的广播经过人工确认后进行关键词提取,进一步更新初始语料库。实测数据表明,该方法能够有效地识别出广播的属性和类别,可为相关无线电管理机构提供服务。  相似文献   

5.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的含量。实验结果显示,这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

6.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核一心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的舍量。实验结果显示.这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

7.
特征抽取是文本分类的重要研究领域,针对原始特征空间的高维性与稀疏性给分类算法带来"维数灾难"问题,探讨了基于词条聚合的特征抽取方法,设计了一种利用词条聚合进行特征抽取的文本分类的方案.该方案利用改进的树型动态自组织映射(TGSOM)进行词条聚合,并根据聚合特征的特点,考虑所包含的词条的文档频率的不同和区分文档类别属性的能力的不同,提出了一种新权重计算方法,最后利用SPRINT决策树算法进行分类,实验表明该方法比普通方法分类精度提高4.32%.  相似文献   

8.
为使文本向量能准确表达文本信息、提升文本分类效果,提出了一种强化类别贡献的文本特征权重方案.利用后验概率定义了特征词的类别贡献度函数,结合相关频率权重因子,得到兼顾类别贡献度与类间分布差异的文本特征权重量化方案.在4个标准语料集上的测试结果表明,该方案实现简单,能更准确地刻画不同特征对分类的贡献差异,优化文本表示,并显著地提高文本分类效果.  相似文献   

9.
类别关键词是文本分类首先要解决的关键问题,在研究利用类别关键词及TF-IDF算法对文本进行分类的基础上,提出了一种改进的TF-IDF算法.首先建立类别关键词库,并对其进行扩充及去重,克服了向量空间模型不能很好调节权重的缺点.通过加入文档长度权值修正文档中关键词的权重,有效地解决了原有特征词条类别区分能力不足的问题.采用贝叶斯分类方法,结合实验验证了该算法的有效性,提高了文本分类的准确度.  相似文献   

10.
文本分类是当今信息检索和数据挖掘等领域的研究热点,而特征加权是文本分类过程中的重要步骤.为了提高分类质量,文章通过深入分析粗糙集理论和逆文本频率加权的思想,提出了一种基于粗糙集的特征加权方法,从近似分类精度和近似分类质量两个方面考虑特征词对分类的全局作用,将文本的类别属性信息引入到权重中.通过文本分类实验证明,该加权方法有助于提高分类系统的分类效果.  相似文献   

11.
利用加权特征模型改进问句分类   总被引:1,自引:0,他引:1  
为了减少目前大多数问句分类算法由于采用了布尔特征模型所导致的特征信息损失,提出了一个基于网络和聚类技术的加权特征模型来表达问句的特征空间.不同于以往采用的布尔特征模型将特征赋值为0或1以表示相应特征出现与否,新的加权特征模型将特征加权为一个位于区间0~10的一个实数,以区分不同的特征对于问句分类的贡献:权值越大,相应特征对于区分问句的类型做出的贡献越大.试验结果表明,该加权特征模型在问句分类领域优于之前被广泛使用的布尔特征模型.  相似文献   

12.
文本分类中一种新的特征选择方法   总被引:2,自引:2,他引:0  
文本分类面临的一个主要问题就是如何降低文本巨大的特征维数,并且保持分类精度甚至提高分类精度。针对该问题,提出了一种基于信息论的特征再提取方法,旨在删除稀疏分布的特征、保留有利于分类的特征。使用该方法时配合特征选择方法,可进一步降低特征维数。实验结果表明,该方法能将特征维数降低到几百维,而且能提高分类器的性能。  相似文献   

13.
A configurable ontology mapping approach based on different kinds of concept feature information is introduced in this paper. In this approach, ontology concept feature information is classified as five kinds, which respectively corresponds to five kinds of concept similarity computation methods. Many existing ontology mapping approaches have adopted the multi-feature reasoning, whereas not all feature information can be computed in the real ontology mapping and only fractional feature information needs to be selected in the mapping computation. Consequently a configurable ontology mapping model is introduced, which is composed of CMT model, SMT model and related transformation model. Through the configurable model, users can conveniently select the most suitable features and configure the suitable weights. Simultaneously, a related 3-step ontology mapping approach is also introduced. Associated with the traditional name and instance learner-based ontology mapping approach, this approach is evaluated by an ontology mapping application example.  相似文献   

14.
基于特征加权的模糊聚类算法研究   总被引:2,自引:0,他引:2  
模糊聚类分析是非监督模式分类的一个分支,在模式识别中有着重要的地位。在FCM算法中,考虑到样本矢量中各维特征对模式分类的不同影响,本文引入一种基于特征加权的模糊聚类算法,该算法考虑了各维特征对分类的贡献不同,从而对数据进行了更有效的分类。  相似文献   

15.
一种基于文本分类的特征选择方法   总被引:1,自引:0,他引:1  
文本分类中通常采用向量空间模型(VSM)来表示文本特征,如何选择最能够表达文本主题的特征词,从而减少特征空间维数,降低时空复杂度,是一个十分重要的问题。针对此问题本文提出了采用截集模糊C-均值(S2FCM)聚类进行类间特征降维,该方法以最大隶属度原则为指导,在保持模糊聚类的同时,提高收敛速度,并且能够提高特征选择的正确性。同时在算法中使用改进的隶属度、聚类中心计算方法并使用非随机方法确定初始聚类中心。最后实验表明采用该方法选择的文本特征项进行文本分类能够收到比较好的分类结果。  相似文献   

16.
文章研究了基于向量空间模型的文本分类中特征词权重算法,综合考虑特征词在文本中出现的位置信息,提出一种改进算法并给出实验结果。  相似文献   

17.
基于扩展情感词典及特征加权的情感挖掘方法   总被引:1,自引:1,他引:0  
针对情感分类中采用单一特征分类精度不高的问题,提出多特征加权的分类算法:根据扩展的情感词典计算每个词的情感倾向度,经CHI特征选择后,根据情感词的极性强度调整贝叶斯分类模型中该词的正负后验概率,在原值的基础上加上极性强度影响值。实验将该方法和其他3种单特征选择方法在酒店、影视等语料上的分类精度进行了对比,分类精度得到提升。实验结果表明,将词语的情感倾向度的特征融入到分类器中方法,在有效提高情感倾向性分类精度的同时降低了特征维数。  相似文献   

18.
针对传统单标签特征选择算法不能直接应用于多标签数据的问题,提出一种多标签特征选择算法——MML-RF算法.在ReliefF的基础上,MML-RF算法提出新的类内最近邻样本查找方式,并结合多标签的贡献值改进特征权值的计算方法,能很好地适应多标签数据的特点;同时为了减少特征冗余,MML-RF算法以互信息作为特征冗余度量方式,提出一种去冗余方法,能够得到更小的特征子集.实验表明,MML-RF多标签特征选择算法得到的特征子集规模较小,且在多标签数据集上具有很好的分类效果,能够提升多标签学习和数据挖掘工作的效率.  相似文献   

19.
为了利用商品文本标题实现商品自动分类,提出一种基于高层特征融合的商品分类模型.首先,提出基于字嵌入和词嵌入的文本底层特征表示法,进而获得更强的商品标题结构特征表达;其次,提出了联合自注意力、卷积神经网络和通道注意力的机制,对文本标题的底层特征进行增强并获得高层增强特征;最后,通过将文本的字嵌入和词嵌入的高层增强特征进行融合,最终获得商品文本标题的综合特征,并实现商品自动分类.以商品标题语料作为数据集进行了实验,实验结果表明,该模型对三级商品类别的分类精度能够达到84.348%,召回率和F1值分别达到了47.8%和49.4%,优于现有可用于商品文本标题分类的先进短文本分类方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号