首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
董梅  胡学钢 《微机发展》2007,17(7):117-119
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

2.
基于多特征选择的中文文本分类   总被引:1,自引:0,他引:1  
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

3.
随着网络的发展,大量的文档数据涌现在网上,自动文本分类已经成为处理和组织大量文档数据的关键技术.其困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题.本文结合了多种特征选择方法,提出一种基于差值思想的多特征选择算法,并应用于KNN文本分类算法,实验表明,本文提出的特征选择算法能进一步提高分类性能.  相似文献   

4.
文本的特征选择作为文本分类的关键步骤,它的好坏将直接影响文本分类的准确率。本文在介绍文本分类的背景之下,针对传统特征提取方法的不足,提出一种新的特征选择方法。在《同义词词林》基础上,计算特征词之间的语义相关度,进行特征选择。实验结果表明该方法有效的降低了特征空间的高维稀疏性和减少噪声,提高了分类精度,体现出更好的分类效果。  相似文献   

5.
文本分类中基于基尼指数的特征选择算法研究   总被引:14,自引:3,他引:14  
随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,自动文本分类已成为处理和组织大量文档数据的关键技术.对于采用矢量空间模型(VSM)的大多数分类器来说,文本预处理成为分类的瓶颈,高维的特征空间对于大多数分类器来说是难以忍受的,因此采用适当的文本特征选择算法降低原始文本特征空间的维数成为文本分类的首要任务.目前也有很多的文本特征选择算法,介绍了另一种新的基于基尼指数的文本特征选择算法,使用基尼指数原理进行了文本特征选择的研究,构造了基于基尼指数的适合于文本特征选择的特征选择评估函数.实验表明,基于基尼指数的文本特征选择能进一步提高分类性能,而且计算复杂度小.  相似文献   

6.
该文介绍了文本分类的定义,主要的特征选择方法,文本表示的向量空间模型,分类效果的评价指标。  相似文献   

7.
何玲  罗玉双 《福建电脑》2010,26(1):83-83,98
文本自动分类中,比较常用的特征选择算法是通过评估函数来计算特征对类别的区别能力.虽然对这些方法已有了大量的改进,但是特征选择还有进一步改进的空间。本文提出了一种新的文本自动分类特征选择算法——基于相对比较法,该方法考虑特征与特征之间的相关性,不仅选择出对文本区别度大的特征词作为特征词集.还减少了冗余的特征词,从而降低文本特征向量的维数,提高文本分类的效率。  相似文献   

8.
文本特征选择是文本分类和信息提取的关键技术。针对文本分类中特征向量的高维稀疏问题,提出了非负矩阵分解和概念语义空间结合的特征抽取方法,对特征矩阵分解算法加入非负限制能够给出概念语义向量面向主题的解释,较好体现文本的局部特征。采用非负矩阵分解对全局和局部语义空间进行降维处理提高了体征提取效率,对不同概念语义空间中文本分类效果比对分析。实验结果表明基于非负矩阵分解的局部概念语义空间中文本分类精度较高。  相似文献   

9.
基于向量空间模型的文本分类中特征向量是极度稀疏的高维向量,只有降低向量空间维数才能提高分类效率。在利用统计方法选择文本分类特征降低特征空间维数的基础上,采用隐含语义分析技术,挖掘文档特征间的语义信息,利用矩阵奇异值分解理论进一步降低了特征空间维数。实验结果表明分类结果宏平均F1约提高了5%,验证了该方法的有效性。  相似文献   

10.
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。基于向量空间的文本分类方法中,信息增益是一种有效的特征选择方法。本文改进信息增益的特征选择方法:降低负类对分类的贡献;改进特征项在类中的均匀程度对分类的贡献。实验结果表明,经过改进的信息增益的特征选择方法在分类效果上有显著的提高。  相似文献   

11.
针对资源分配网络(RAN)算法存在隐含层节点受初始学习数据影响大、收敛速度低等问题,提出一种新的RAN学习算法。通过均值算法确定初始隐含层节点,在原有的“新颖性准则”基础上增加RMS窗口,更好地判定隐含层节点是否增加。同时,采用最小均方(LMS)算法与扩展卡尔曼滤波器(EKF)算法相结合调整网络参数,提高算法学习速度。由于基于词向量空间文本模型很难处理文本的高维特性和语义复杂性,为此通过语义特征选取方法对文本输入空间进行语义特征的抽取和降维。实验结果表明,新的RAN学习算法具有学习速度快、网络结构紧凑、分类效果好的优点,而且,在语义特征选取的同时实现了降维,大幅度减少文本分类时间,有效提高了系统分类准确性。  相似文献   

12.
基于协同演化的文本特征获取算法   总被引:3,自引:0,他引:3  
作为证券监管机构,如何从海量的网络信息中有效地对文本信息进行准确的分类,对于提高日常监管工作效率是非常重要的。该文主要基于数据挖掘技术,以矢量空间模型VSM为文本的表示方法,提出了一个基于协同演化遗传算法的多文本特征抽取算法,有效地降低了文本特征矢量的维数,为文本分类模板获取等多文本特征获取问题提供了一个可行的解决方案。  相似文献   

13.
针对心电(ECG)信号情感识别中特征选择的问题,首先运用相关性分析方法,去除原始特征集中的高相关度特征,实现原始特征集的降维;其次,为了在降维后的特征空间中进行有效的特征选择,提出了一种改进的二进制量子粒子群算法(SBQPSO)。实验结果表明,基于本算法结合Fisher分类器建立的ECG信号情感识别系统能够对高兴、惊奇、厌恶、悲伤、愤怒和恐惧6种情感达到良好的识别效果。  相似文献   

14.
内P一推理与内收敛信息的辨识   总被引:2,自引:2,他引:0  
P-推理(packet reasoning)是由内P-推理(internal packet reasoning)与外P-推理(outer packet reasoning)共同构成的。P-推理是一个动态推理,具有智能特征;P-推理是由P-集合得到的。利用P-集合与P-推理理论,给出了内收敛信息与它的属性特性、内收敛信息的内P-推理生成与生成定理、内收敛信息的存在原理与辨识定理以及内收敛信息在动态信息系统中的应用。  相似文献   

15.
针对传统特征选择方法如信息增益存在选择偏好、处理非线性问题能力弱、以及参数手动优化过程繁琐的问题, 提出一种基于最大互信息系数与皮尔逊相关系数的两阶段特征选择融合算法, 并利用遗传算法对其中两个超参数自动进行优化. 第一阶段, 利用最大互信息系数获取特征和标签之间的相关性来进行特征选择; 第二阶段, 使用皮尔逊相关系数对获取的特征子集进行去冗余. 进一步, 基于遗传算法对两个阶段中的两个超参数自动进行优化. 将该方法运用于多组UCI数据集中进行测试. 实验结果表明, 该算法能够兼顾降低特征空间的维度和提升算法的分类性能.  相似文献   

16.
提出一种基于遗传算法的个性化特征选择方法.该方法采用真伪两类样本之间的边缘间隔作为遗传算法的适应度估计函数,在相同特征初始集基础上对不同人提取不同的(即个性化)特征子集.实验证明该方法不但能有效地降低特征空间维数,而且使分类准确率得到显著提高.  相似文献   

17.
利用无监督聚类算法可以有效地保留数据特征的特性,提出采用无监督聚类算法来对数据样本进行降维处理的方法,通过将连续多次迭代分类结果进行按类数编码,得到快速判定聚类分析降维开始的可行条件及聚类结束条件,并以降维数据为数据样本,继续进行聚类分析,快速完成数据特征提取。通过实验证明该方法在数据降维效果和聚类算法的执行速度上都有很大提高。  相似文献   

18.
在故障诊断中,将高维特征空间压缩到低维特征空间可以简化故障分类器设计,提高运算效率。研究了自适应遗传算法(AGA)和粗糙集(RS)理论在特征选择和特征约简中的应用,并针对柴油机燃油喷射系统故障提取了简化特征,建立了神经网络模型。试验结果表明,基于AGA-RS的故障特征参数提取方法可使故障分类器输入参数同时具有有效性和简约性,提高了神经网络的运算效率。  相似文献   

19.
高茂庭  陆鹏 《计算机应用》2008,28(6):1411-1413
利用遗传算法优化投影方向,投影寻踪模型将高维的文本特征数据投影到2~3维的低维可视化空间上,并根据高维数据在这个低维空间当中的投影特征值来反映其线性和非线性结构或特征,达到数据降维目的并实现文本数据特征可视化。不仅大大约简了文本挖掘过程的计算复杂性,还有助于在K-means聚类算法中确定初始中心点数目,提高算法精度。实验验证了这种方法应用于文本特征降维的有效性。  相似文献   

20.
贪婪核主元模糊神经网络在转炉炼钢终点预报中的应用   总被引:1,自引:0,他引:1  
本文提出基于核思想和贪婪算法的主元模糊神经网络模型,用来进一步提高转炉终点碳含量和 温度预报模型的精度.采用核函数把输入变量向高维特征空间映射以充分挖掘变量的隐藏信息,经贪婪算法 优化选取主元,除去变量的冗余信息,降低输入维数.将提取的主元输入自适应神经模糊推理系统后,网络 以规则的形式来反映数据间蕴含的关系;以此模拟操作工经验,减少经验差异带来的影响.对转炉生产实测 数据进行了仿真,结果表明该模型是有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号