首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
文本分类中特征项权重的计算方法   总被引:4,自引:0,他引:4  
特征项权重的计算方法是基于向量空间模型的文本分类中一个核心问题,计算方法的选择关系到最终分类的效果.本文对文本分类中特征项权重的计算方法进行了说明,并根据实验对几种特征项权重的计算方法进行了比较。  相似文献   

2.
基于K-最近距离的自动文本分类的研究   总被引:13,自引:1,他引:13  
提出并实现了利用统计词频信息和语言信息相结合的方法选择特征,计算特征的权重值时不仅考虑词频,还利用了特征的集中度、分散度.经过训练和统计对每一类文本形成特征的权重向量,利用K-最近距离的方法对测试集进行分类.对英文文本的测试结果表明,该算法提高了文本分类的准确率.  相似文献   

3.
针对在大量高维样本集下KNN算法的分类计算开销大、效率低的问题,提出了一种基于TextRank和TF-IDF的文本分类算法。首先通过TextRank算法获得文本的候选关键特征,并选择权值较大的特征作为最后的文本关键分类特征,实现所有文本文档的维度缩减,最后采用基于TFIDF特征权值计算方法实现KNN分类。实验结果表明,此方法能够有效地减少文本特征,降低文本向量维度,提高分类效率和分类性能。  相似文献   

4.
类别关键词是文本分类首先要解决的关键问题,在研究利用类别关键词及TF-IDF算法对文本进行分类的基础上,提出了一种改进的TF-IDF算法.首先建立类别关键词库,并对其进行扩充及去重,克服了向量空间模型不能很好调节权重的缺点.通过加入文档长度权值修正文档中关键词的权重,有效地解决了原有特征词条类别区分能力不足的问题.采用贝叶斯分类方法,结合实验验证了该算法的有效性,提高了文本分类的准确度.  相似文献   

5.
为了提高微博的情感分析的准确率,选取微博文本中的动词和形容词作为特征,提出了基于层次结构的特征降维方法,采用基于表情符号的方法计算特征极性值。在此基础上,提出了基于特征极性值的位置权重计算方法,借助支持向量机(SVM)作为机器学习模型将微博文本分为正面、负面和中性3类。也就是多特征提取,结合字典法与机器学习法2种算法,来提高情感分析的准确率。实验结果表明,该方法能取得平均为72.16%的准确率。提出的基于多特征与复合分类器的情感分析方法能够比较有效地对中文微博文本进行情感分类。  相似文献   

6.
为使文本向量能准确表达文本信息、提升文本分类效果,提出了一种强化类别贡献的文本特征权重方案.利用后验概率定义了特征词的类别贡献度函数,结合相关频率权重因子,得到兼顾类别贡献度与类间分布差异的文本特征权重量化方案.在4个标准语料集上的测试结果表明,该方案实现简单,能更准确地刻画不同特征对分类的贡献差异,优化文本表示,并显著地提高文本分类效果.  相似文献   

7.
基于加权频繁项集的文本分类规则挖掘   总被引:2,自引:0,他引:2  
针对特征向量分量的权重和文本大小对分类规则产生的影响,提出一种可以提高关联文本分类性能的文本分类规则挖掘方法,提出了加权频繁项集的概念和相应的加权频繁项集挖掘算法,在分类规则中突出特征向量权重大的向量分量;提出一种特征向量预处理方法,消除文本大小对挖掘分类规则的影响.实验表明,解决上述两个问题将可以很好的提高文本分类的性能.  相似文献   

8.
基于特征选择技术的情感词权重计算   总被引:2,自引:0,他引:2  
在文本情感分析中,情感词典的构建至关重要,然而目前这方面的研究大多集中在简单的词语极性判别上,有关情感词的权重赋值研究较少,且已有的权重赋值方法基本上都需要人工辅助来选取基准词,这给实际应用带来很大的困难. 针对此问题,提出了一种自动的基于特征选择技术的情感词权重计算方法. 首先提出了词语情感权重与文本情感倾向的相关假设;然后针对情感分类,结合二元分类的特性改进了信息增益( information gain, IG)和卡方统计量( chi-square,CHI) ,将特征选择技术应用于情感词权重计算. 实验结果表明:将计算所得的带情感权重的情感词库用于文本情感分类能够提升分类精度.  相似文献   

9.
LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本表示模型是基于主题向量和文档向量计算新的特征表示文本,但直接计算所得的稀疏主题特征与基于词向量的文档特征的距离,缺乏特征的一致性。本文提出了Huffman-LDA和Weight-Word2vec的文本表示模型,首先,使用LDA模型得到主题向量后构建主题哈夫曼树,再运用梯度上升方法更新主题向量,新的主题向量包含不同主题词之间的关系,求得的特征不再具有稀疏性;然后,使用LDA主题向量与主题矩阵中词的主题特性计算词权重更新Word2vec的词向量,使得词向量包含主题词之间的关系进而表示文档向量;最后,通过主题向量和文档向量的欧式距离得到具有强分类特征的文本表示。实验结果表明,该方法可获得更强的文本表示特征,有效提高文档分类精度。  相似文献   

10.
一种基于概念层次的文本特征权重计算方法   总被引:1,自引:0,他引:1  
特征权重计算是文本表示的关键,权重计算方法的优劣直接影响文本分类和聚类的准确度。基于词形和词频统计的特征加权方法过于近似和粗糙,不能有效突出具有较强类别区分度的重要特征,难以有效区分两类特征,造成了高维稀疏问题,使文本分类性能不够理想,这是特征权重计算的主要障碍。提出一种基于概念层次的特征权重计算方法,将词空间转移为概念空间,在概念层次上引入特征支持度与类别强度两个参数对特征权重进行调整。实验表明,新的方法表现了较好的分类性能,在空间维度的压缩与计算效率上也有明显的改善。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号