首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
提出了一种改进的基于特征提取的二级文本分类方法.通过提取出文本的特征项并计算其权重值,将文本表示成由特征项和权重值组成的向量,利用向量的夹角余弦计算二级分类模型下文本之间的相似度,可以更准确快速地定位海量信息.实验结果表明本文提出的分类方法的准确率优于传统的类中心分类法,提高了系统的适应性和分类能力.  相似文献   

2.
一种基于概念层次的文本特征权重计算方法   总被引:1,自引:0,他引:1  
特征权重计算是文本表示的关键,权重计算方法的优劣直接影响文本分类和聚类的准确度。基于词形和词频统计的特征加权方法过于近似和粗糙,不能有效突出具有较强类别区分度的重要特征,难以有效区分两类特征,造成了高维稀疏问题,使文本分类性能不够理想,这是特征权重计算的主要障碍。提出一种基于概念层次的特征权重计算方法,将词空间转移为概念空间,在概念层次上引入特征支持度与类别强度两个参数对特征权重进行调整。实验表明,新的方法表现了较好的分类性能,在空间维度的压缩与计算效率上也有明显的改善。  相似文献   

3.
基于K-最近距离的自动文本分类的研究   总被引:14,自引:1,他引:13  
提出并实现了利用统计词频信息和语言信息相结合的方法选择特征,计算特征的权重值时不仅考虑词频,还利用了特征的集中度、分散度.经过训练和统计对每一类文本形成特征的权重向量,利用K-最近距离的方法对测试集进行分类.对英文文本的测试结果表明,该算法提高了文本分类的准确率.  相似文献   

4.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核一心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的舍量。实验结果显示.这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

5.
基于特征选择技术的情感词权重计算   总被引:2,自引:0,他引:2  
在文本情感分析中,情感词典的构建至关重要,然而目前这方面的研究大多集中在简单的词语极性判别上,有关情感词的权重赋值研究较少,且已有的权重赋值方法基本上都需要人工辅助来选取基准词,这给实际应用带来很大的困难. 针对此问题,提出了一种自动的基于特征选择技术的情感词权重计算方法. 首先提出了词语情感权重与文本情感倾向的相关假设;然后针对情感分类,结合二元分类的特性改进了信息增益( information gain, IG)和卡方统计量( chi-square,CHI) ,将特征选择技术应用于情感词权重计算. 实验结果表明:将计算所得的带情感权重的情感词库用于文本情感分类能够提升分类精度.  相似文献   

6.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的含量。实验结果显示,这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

7.
经过训练和统计对每一类文本形成特征的权重向量,利用K-最近距离的方法对测试集进行分类.Sleepingexpert算法采用正权重和负权重较好地描述了多义词的特性,该文在原算法中插入了一种权重补偿模块,其目标是实现权重和当前概念的一致性,具有更好的分类性能.  相似文献   

8.
特征选择是文本分类过程的重要处理步骤,在其他分类预处理环节和分类算法确定的条件下,通过传统特征选择方法很难大幅度提高文本分类的准确率。针对此问题,介绍了一个基于改进蝙蝠优化的新的文本特征选择方法,即利用传统的特征选择方法对原始特征进行预选,在此基础上使用高斯局部扰动和自适应调节权重机制改进传统蝙蝠群算法,并以二进制编码形式对预选特征进行优选,分类准确率作为个体的适应度,提出了多策略改进蝙蝠算法的文本特征选择算法MS-BA,实现对文本特征选择优化模型的高效求解。结果表明,采用MS-BA进行特征优选后,其分类准确率得到有效提高。  相似文献   

9.
类别关键词是文本分类首先要解决的关键问题,在研究利用类别关键词及TF-IDF算法对文本进行分类的基础上,提出了一种改进的TF-IDF算法.首先建立类别关键词库,并对其进行扩充及去重,克服了向量空间模型不能很好调节权重的缺点.通过加入文档长度权值修正文档中关键词的权重,有效地解决了原有特征词条类别区分能力不足的问题.采用贝叶斯分类方法,结合实验验证了该算法的有效性,提高了文本分类的准确度.  相似文献   

10.
文本分类是当今信息检索和数据挖掘等领域的研究热点,而特征加权是文本分类过程中的重要步骤.为了提高分类质量,文章通过深入分析粗糙集理论和逆文本频率加权的思想,提出了一种基于粗糙集的特征加权方法,从近似分类精度和近似分类质量两个方面考虑特征词对分类的全局作用,将文本的类别属性信息引入到权重中.通过文本分类实验证明,该加权方法有助于提高分类系统的分类效果.  相似文献   

11.
文章研究了基于向量空间模型的文本分类中特征词权重算法,综合考虑特征词在文本中出现的位置信息,提出一种改进算法并给出实验结果。  相似文献   

12.
针对文本分类问题,从分片线性学习的角度出发,提出了一种文本分类的组合凸线性感知器模型.首先,对文本样本集进行预处理,包括特征选择、特征项赋权等;然后,分别利用生长支持组合凸线性感知器算法(growing support multiconlitron algorithm,GSMA)和支持组合凸线性感知器算法(support multiconlitron algorithm,SMA)构造组合凸线性感知器,对样本集进行分类.该模型基于支持向量机的最大间隔思想,通过集成线性分类器,实现了对2类数据的划分,具有计算简单、适应能力强的优点.在标准文本数据集上的实验结果表明:该模型所构造的分类器具有良好的文本分类性能,与其他典型文本分类方法的对比也说明了该方法的有效性.  相似文献   

13.
在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。  相似文献   

14.
针对基于评论文本推荐系统的特征没有充分组合的问题,提出一种利用双重注意力实现评论特征组合的推荐模型.首先利用经情感分类任务微调后的编码模型对评论文本进行编码,得到对应的特征向量;然后利用双线性内积计算用户与商品之间评论特征向量的交叉注意力,实现用户和商品之间评论特征的交叉组合;再利用多头自注意力实现用户和商品对应评论特征的自组合,得到用户和商品最终的特征表示.在真实数据集上的实验结果表明,所提模型的均方误差相比其他模型下降了1.43%.  相似文献   

15.
利用加权特征模型改进问句分类   总被引:1,自引:0,他引:1  
为了减少目前大多数问句分类算法由于采用了布尔特征模型所导致的特征信息损失,提出了一个基于网络和聚类技术的加权特征模型来表达问句的特征空间.不同于以往采用的布尔特征模型将特征赋值为0或1以表示相应特征出现与否,新的加权特征模型将特征加权为一个位于区间0~10的一个实数,以区分不同的特征对于问句分类的贡献:权值越大,相应特征对于区分问句的类型做出的贡献越大.试验结果表明,该加权特征模型在问句分类领域优于之前被广泛使用的布尔特征模型.  相似文献   

16.
特征提取是文本挖掘基础性、关键性的技术,现将基于粗糙集的属性约简算法应用于文本挖掘中特征项的提取工作,以解决文本特征降维问题.实验表明,利用粗糙集方法进行特征提取,能够去掉多余属性,大大降低文本特征项的维数。  相似文献   

17.
为了利用商品文本标题实现商品自动分类,提出一种基于高层特征融合的商品分类模型.首先,提出基于字嵌入和词嵌入的文本底层特征表示法,进而获得更强的商品标题结构特征表达;其次,提出了联合自注意力、卷积神经网络和通道注意力的机制,对文本标题的底层特征进行增强并获得高层增强特征;最后,通过将文本的字嵌入和词嵌入的高层增强特征进行融合,最终获得商品文本标题的综合特征,并实现商品自动分类.以商品标题语料作为数据集进行了实验,实验结果表明,该模型对三级商品类别的分类精度能够达到84.348%,召回率和F1值分别达到了47.8%和49.4%,优于现有可用于商品文本标题分类的先进短文本分类方法.  相似文献   

18.
提出了一种基于文本集密度的特征词选择与权值计算的方法AMTW (ApproachofModifyingTermWeighting) .该方法可以找出不损失文本有效信息的最小特征词语集 ,设计出更为合理权值计算方案 .经元打分法证明该方法是有效的  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号