首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 875 毫秒
1.
基于向量空间模型的文本分类中特征向量是极度稀疏的高维向量,只有降低向量空间维数才能提高分类效率。在利用统计方法选择文本分类特征降低特征空间维数的基础上,采用隐含语义分析技术,挖掘文档特征间的语义信息,利用矩阵奇异值分解理论进一步降低了特征空间维数。实验结果表明分类结果宏平均F1约提高了5%,验证了该方法的有效性。  相似文献   

2.
提出了一种实体关系抽取方案,该方案针对实体关系抽取中特征空间维数过高问题,引入了文本分类中的特征选择算法,如信息增益、期望交叉熵和x2统计,实现了特征空间降维。实验结果表明,各特征选择算法均能在尽量保证抽取性能的同时有效地降低向量空间维数,提高分类效率,其中x2统计取得的效果最好。  相似文献   

3.
研究遥感图像分类精度问题,遥感图像分类根据图像特征进行分类,然而其特征维数相当高且信息冗余严重,分类器不能降低特征维数,导致分类器计算量大,图像分类效率和正确率低。利用主成分分析(PCA)降维特征维数的优点,提出一种基于PCA-SVM的遥感图像分类方法。PCA-SVM算法首先采用LBP算子提取遥感图像特征,然后采用PCA对遥感图像特征进行降维处理,减少特征维数并消除特征冗余信息,获得对分类结果贡献大的特征,最后采用SVM进行遥感图像分类。仿真结果表明,PCA-SVM提高了遥感图像分类效率和正确率。  相似文献   

4.
基于分形维数的雷达信号脉内调制方式识别   总被引:3,自引:0,他引:3  
分形维数是分形理论中的重要参数,其中盒维数可以描述分形信号的几何尺度信息,信息维数描述分形信号在平面空间上的分布信息。因此利用分形理论从信号中提取盒维数和信息维数作为分类特征,这种特征可包含信号幅度、频率和相位的变化规律,并集中了不同调制信号之间的差异信息。通过计算若干种常见脉内调制雷达辐射源信号的盒维数与信息维数,表明了分形维数在分类意义上是有效的特征。并由分类识别的仿真实验验证了基于分形维数进行的分类具有较高的识别率。  相似文献   

5.
基于相关性和冗余度的联合特征选择方法   总被引:1,自引:1,他引:0  
比较研究了与类别信息无关的文档频率和与类别信息有关的信息增益、互信息和χ2统计特征选择方法,在此基础上分析了以往直接组合这两类特征选择方法的弊端,并提出基于相关性和冗余度的联合特征选择算法。该算法将文档频率方法分别与信息增益、互信息和χ2统计方法联合进行特征选择,旨在删除冗余特征,并保留有利于分类的特征,从而提高文本情感分类效果。实验结果表明,该联合特征选择方法具有较好的性能,并且能够有效降低特征维数。  相似文献   

6.
针对传统向量空间模型中的特征项孤立处理问题,首先通过χ2统计和特征聚类相结合的模式实现特征降维,然后使用图模型来建立词和词之间相互关联信息,最后运用KNN方法进行文档分类测试。该算法提高了稀有词对分类的贡献,强化了关联词的分类效果,并降低了文档向量的维数。实验证明,该算法提高了分类的准确率和召回率。  相似文献   

7.
一种文本特征选择方法的研究   总被引:2,自引:2,他引:0  
在文本分类中,对高维的特征集进行降维是非常重要的,不但可以提高分类精度和效率,也可以找出富含信息的特征子集.而特征选择是有效降低特征向量维数的一种方法.目前常用的一些特征选择算法仅仅考虑了特征词与类别间的相关性,而忽略了特征词与特征词之间的相关性,从而存在特征冗余,影响了分类效果.为此,在分析了常用的一些特征选择算法之后,提出了一种基于mRMR模型的特征选择方法.实验表明,该特征选择方法有助于提高分类性能.  相似文献   

8.
实时文本分类系统的研究与实现   总被引:5,自引:1,他引:4  
分析文本分类过程中影响实时性的因素,即分词处理高耗时和特征空间维数过高问题。结合网页过滤的实时应用提出一种实时文本分类方法,弱化分词处理过程,降低特征空间维数,以提高分类速度。通过优化特征项选取维持分类效果,基于贝叶斯理论实现实时文本分类系统。实验结果表明,该方法在维持精确率和召回率分别为85%, 94%的情况下,显著提高了分类速度。  相似文献   

9.
对高维特征集的降维是文本分类的一个主要问题。在分析现有特征降维方法的基础上,借助《知网》提出一种新的二次降维方法:采用传统的特征选择方法提取一个候选特征集合;利用《知网》对候选集合中的特征项进行概念映射,把大量底层分散的原始特征项替换成少量的高层概念进行第二次特征降维。实验表明,这种方法可以在减少文本语义信息丢失的前提下,有效地降低特征空间维数,提升文本分类的准确度。  相似文献   

10.
基于模式聚类和遗传算法的文本特征提取方法   总被引:2,自引:1,他引:1  
郝占刚  王正欧 《计算机应用》2005,25(7):1632-1633
采用模式聚类和遗传算法进行文本特征提取,并用Kohonen网络进行分类。模式聚类可以有效降低文本特征的维数,使得特征从几千维降为几百维。但几百维的维数对Kohonen网络来说仍然太高,因此采用遗传算法在此基础上继续降维。实验结果表明,这两种方法结合可以极大地降低文本的维数,并能提高分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号