首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
特征选择和分类算法是网页文本聚类中最关键的技术。提出对网页文本提取特征值后,利用潜在语义索引对网页文本降维,采用支持向量聚类(SVC)算法对降维后的特征向量进行聚类,以此进行文本分类。实验结果显示具有较好的效果。  相似文献   

2.
基于非线性流形学习和支持向量机的文本分类算法   总被引:2,自引:1,他引:1  
为解决文本自动分类问题,提出一种流形学习和支持向量机相结合的文本分类算法(LLE-LSSVM)。LLE-LSSVM算法利用非线性流形学习算法LEE对高维文本特征进行非线性降维,挖掘出特征内在规律与本征信息,从而得到低维特征空间,然后将其输入到LSSVM中进行学习,同时利用混沌粒子群算法对LSSVM参数进行优化,建立文本分类模型。仿真实验结果表明,LLE-LSSVM算法提高了文本分类准确率,减少了分类运行时间,是一种有效的文本分类算法。  相似文献   

3.
水质分类受多个特征属性影响。采用支持向量机(Support Vector Machine, SVM)方法研究水质预测问题。对特征属性过多导致SVM的分类精度下降的问题,采用主成分分析算法进行特征降维。针对SVM中的多参数优化问题,采用量子粒子群优化算法对SVM参数(核函数、惩罚因子)进行寻优。提出了一种基于主成分分析和量子粒子群优化的SVM算法。实验结果表明,该方法能够快速提取出最优参数组合,其泛化性能较高。  相似文献   

4.
面对大数据时代消费者评价的海量信息,为了识别消费者评价信息的情感倾向,及时掌握消费者的评价信息反馈,采用K-近邻(KNN)算法对消费者评价信息进行情感分类,但是该算法在文本分类过程中因文本特征向量的维度高,使得算法的时间复杂度和空间复杂度较高,计算的开销很大。针对这一问题,通过对获取信息的文本结构以及情感表达特点的分析,采用一种改进的KNN算法进行文本情感分类。在对消费者评价信息进行分类时,先由潜在语义分析算法对文本特征向量进行降维处理,然后利用加权KNN算法进行分类。实验结果表明,该方法在提高文本分类速度的同时保持了良好的分类效果。  相似文献   

5.
基于主动学习支持向量机的文本分类   总被引:2,自引:0,他引:2       下载免费PDF全文
提出基于主动学习支持向量机的文本分类方法,首先采用向量空间模型(VSM)对文本特征进行提取,使用互信息对文本特征进行降维,然后提出主动学习算法对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

6.
为了克服主成分分析(PCA)对共空间模式(CSP)提取脑电信号特征进行降维时,仅考虑主成分对输入变量的表征能力,而忽略了对输出变量进行解释的这一个缺点,提出偏最小二乘回归(PLS)进行降维,通过CSP对数据增强后的信号进行特征提取,采用PLS进行降维,将提取的主成分信息包含对因变量解释程度高的特征作为特征向量,使用PSO-SVM进行分类,用2005 BCI竞赛的数据集IIIa进行分类测试,结果得到3位被试的想象运动平均分类正确率91.71%,通过与CSP-LDS、WL-CSP和CSP等算法的比较,3位被试的平均分类正确率最高,验证了该算法的有效性。  相似文献   

7.
穿戴式跌倒检测中老年人特征属性过多会造成维数灾难,影响后续跌倒检测精度。针对此问题,首先采用时域分析法提取初始特征向量集,然后用提出的改进核主成分分析算法(IKPCA)对特征向量进行降维,从而获得优质的特征向量集,使得后续的分类具有更好的效果。IKPCA算法首先利用I-RELIEF算法对初始特征向量集进行特征选择,然后计算跌倒特征向量的信息度量和相似度度量,最后根据跌倒特征向量的相似度度量剔除无效的跌倒特征向量。IKPCA算法不但保持核主成分分析算法(KPCA)较好的降维能力,而且扩充了较好的分类能力。利用真实的数据集进行实验,对比分析表明,相比其他算法,IKPCA算法能够得到更优质的特征向量数据集。  相似文献   

8.
文本分类存在维数灾难、数据集噪声及特征词对分类贡献不同等问题,影响文本分类精度。为提高文本分类精度,在数据处理方面提出一种新方法。该方法首先对数据集进行去噪处理,结合特征提取算法和语义分析方法对数据实现降维,再利用词语语义相关度对文本特征向量中每个特征词赋予不同权重;并利用经过上述处理的文本数据学习分类器。实验结果表明,该文本处理方法能够有效提高文本分类精度。  相似文献   

9.
针对原始病理图像经软件提取形态学特征后存在高维度,以及医学领域上样本的少量性问题,提出ReliefF-HEPSO头颈癌病理图像特征选择算法。该算法构建了多层次降维框架,首先根据特征和类别的相关性,利用ReliefF算法确定不同的特征权重,实现初步降维。其次利用进化神经策略(ENS)丰富二进制粒子群算法(BPSO)的种群的多样性,提出混合二进制进化粒子群算法(HEPSO)对候选特征子集完成最佳特征子集的自动寻找。与7种特征选择算法的实验对比结果证明,该算法能更有效筛选出高相关性的病理图像形态学特征,实现快速降维,以较少特征获得较高分类性能。  相似文献   

10.
针对文本情感分类准确率不高的问题,提出基于CCA-VSM分类器和KFD的多级文本情感分类方法。采用典型相关性分析对文档的权重特征向量和词性特征向量进行降维,在约简向量集上构建向量空间模型,根据模型之间的差异度设计VSM分类器,筛选出与测试文档差异度较小的R个模型作为核Fisher判别的输入,最终判别出文档的情感观点。实验结果表明:该方法比传统支持向量机有较高的分类准确率和较快的分类速度,权重特征和词性特征对分类准确率的影响较大。  相似文献   

11.
张阳  王小宁 《计算机应用》2021,41(11):3151-3155
文本特征是自然语言处理中的关键部分。针对目前文本特征的高维性和稀疏性问题,提出了一种基于Word2Vec词嵌入和高维生物基因选择遗传算法(GARBO)的文本特征选择方法,从而便于后续文本分类任务。首先,优化数据输入形式,使用Word2Vec词嵌入方法将文本转变成类似基因表示的词向量;然后,将高维词向量模拟基因表达方式进行迭代进化;最后,使用随机森林分类器对特征选择后的文本进行分类。使用中文评论数据集对所提出的方法进行实验,实验结果表明了优化后的GARBO特征选择方法在文本特征选择上的有效性,该方法成功地将300维特征降低为50维更有价值的特征,分类准确率达到88%,与其他过滤式文本特征选择方法相比,能够有效地降低文本特征维度,提高文本分类效果。  相似文献   

12.
高光谱图像的高维特性和波段间的高相关性,导致高光谱图像地物识别问题研究中,面临着数据量大、信息冗余的问题,降低了高光谱图像的分类识别精度。针对以上问题,提出了基于局部保留降维(Local Fisher Discriminant Analysis,LFDA)结合遗传算法(Genetic Algorithm, GA )优化极限学习机(Extreme Learning Machine, ELM)的高光谱图像分类方法。首先,采用LFDA对高光谱图像数据进行降维处理,消除信息冗余并保留局部邻域内主要特征;然后用GA优化ELM,对降维处理后的特征样本进行分类,提高高光谱图像的分类识别精度。将该方法应用于Salinas和Pavia University高光谱图像的地物识别问题研究,分类精度分别达到了98.56%和97.11%,由此验证了该方法的有效性。  相似文献   

13.
增强的独立分量分析(EICA)是一种基于样本整体特征的无监督特征抽取方法,并没有考虑样本的局部特征,因此EICA不利于处理人脸识别这类非线性问题的。无监督鉴别投影技术(UDP)用于高维数据压缩,其基本思想是寻找一组有效的投影方向,使得样本投影后,局部散度最小同时非局部散度最大。UDP同时考虑到样本的局部特征和非局部特征,能够反映样本内在的数据关系,因此UDP能够对样本有效地分类。提出了一种增强的无监督人脸鉴别技术,该方法结合了EICA和UDP的优点,能够:(1)反映样本高阶统计特征;(2)发掘样本内在的几何结构,从而有利于分类。在Yale人脸库和FERET人脸库上的实验验证了该算法的有效性。  相似文献   

14.
针对时序数据相似性搜索面临的高维性问题,提出一种利用按沃尔什序数排列的离散沃尔什变换((DWHT)w)对时序数据进行维归约的方法.(DWHT)w是正交变换,变换矩阵简单,可以应用快速算法,对时序数据有更好的特征提取能力,用其索引时间序列数据在理论上具备非漏报性质.与基于离散傅里叶变换和基于离散沃尔什变换的对比实验表明,...  相似文献   

15.
半监督维数约简是指借助于辅助信息与大量无标记样本信息从高维数据空间找到一个最优低维判别空间,便于后续的分类或聚类操作,它被看作是理解基因序列、文本与人脸图像等高维数据的有效方法。提出一个基于成对约束的半监督维数约简一般框架(SSPC)。该方法首先通过使用成对约束和无标号样本的内在几何结构学习一个判别邻接矩阵;其次,新方法应用学到的投影将原来高维空间中的数据映射到低维空间中,以至于聚类内的样本之间距离变得更加紧凑,而不同聚类间的样本之间距离变得尽可能得远。所提出的算法不仅能找到一个最佳的线性判别子空间,还可以揭示流形数据的非线性结构。在一些真实数据集上的实验结果表明,新方法的性能优于当前主流基于成对约束的维数约简算法的性能。  相似文献   

16.
一种新的应用于文本特征子集优化的GATS算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对文本分类中特征子集优化问题,将禁忌搜索算法引入到遗传算法中对遗传算法的核心算子——交叉算子进行改进形成禁忌交叉算子,改进后的算法称为GATS(遗传禁忌搜索算法),并将其应用在文本分类中来实现空间降维。实验证明,应用此方法进行文本特征项的选取不仅能够保持GA和TS算法本身的优点,还能在一定程度上提高文本分类的准确率。  相似文献   

17.
基于人脸图像的曲线奇异性及高维图像数据带来的计算复杂性.提出一种结合Curvelet变换与LPP的人脸识别方法。首先通过Curvelet变换对人脸图像降维,利用LPP将图像投影到最优子空间中,利用支持向量机进行分类识别,实验结果表明该算法的识别效果优于小波变换结合LPP方法、LPP方法。  相似文献   

18.
王翔  胡学钢 《计算机应用》2017,37(9):2433-2438
随着生物信息学、基因表达谱微阵列、图像识别等技术的发展,高维小样本分类问题成为数据挖掘(包括机器学习、模式识别)中的一项挑战性任务,容易引发"维数灾难"和过拟合问题。针对这个问题,特征选择可以有效避免维数灾难,提升分类模型泛化能力,成为研究的热点,有必要对国内外高维小样本特征选择主要研究情况进行综述。首先分析了高维小样本特征选择问题的本质;其次,根据其算法的本质区别,重点对高维小样本数据的特征选择方法进行分类剖析和比较;最后对高维小样本特征选择研究面临的挑战以及研究方向作了展望。  相似文献   

19.
高茂庭  陆鹏 《计算机应用》2008,28(6):1411-1413
利用遗传算法优化投影方向,投影寻踪模型将高维的文本特征数据投影到2~3维的低维可视化空间上,并根据高维数据在这个低维空间当中的投影特征值来反映其线性和非线性结构或特征,达到数据降维目的并实现文本数据特征可视化。不仅大大约简了文本挖掘过程的计算复杂性,还有助于在K-means聚类算法中确定初始中心点数目,提高算法精度。实验验证了这种方法应用于文本特征降维的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号