共查询到18条相似文献,搜索用时 156 毫秒
1.
为了获得更好的文本分类准确率和更快的执行效率, 研究了多种Web文本的特征提取方法, 通过对互信息(MI)、文档频率(DF)、信息增益(IG)和χ2统计(CHI)算法的研究, 利用其各自的优势互补, 提出一种基于主成分分析(PCA)的多重组合特征提取算法(PCA-CFEA)。通过PCA算法的正交变换快速地将文本特征空间降维, 再通过多重组合特征提取算法在降维后的特征空间中快速提取出更具代表性的特征项, 过滤掉一些代表性较弱的特征项, 最后使用SVM分类器对文本进行分类。实验结果表明, PCA-CFEA能有效地提高文本分类的正确率和执行效率。 相似文献
2.
叙述了传统的PCA方法在处理QAR数据相似性问题的不足,提出基于EROS的KPCA方法处理QAR数据之间的相似性问题。通过引入EROS方法而不需要对数据进行向量化,引入核矩阵对QAR数据进行主成分分析,可以有效降低数据的维数。选取两组QAR数据集,采用支持向量积方法,选用不同数目的主成分进行分类实验,同SPCA方法和GPCA方法进行比较,实验结果显示把该方法运用到QAR数据集,具有较好的分类结果。 相似文献
3.
提出一种基于分割的主成分分析(Segmented Principal Component Analysis,SPCA)和域变换递归滤波(Domain Transform Recursive Filtering,DTRF)的高光谱图像分类算法。利用SPCA方法降低高光谱图像的维数和提取各波段子集的第一主成分。使用不同参数的域变换递归滤波器对各波段子集第一主成分进行滤波,形成堆叠的边缘保持滤波图。采用主成分分析(Principal Component Analysis,PCA)将堆叠的边缘保持滤波图进行特征融合。利用基本阈值分类器(Basic Thresholding Classifier,BTC)对融合后的主成分进行分类。仿真实验表明,所提方法能够提高分类精度,且在总体分类精度、平均分类精度、Kappa系数等方面优于已有方法。 相似文献
4.
5.
针对现有集成入侵检测算法的多样性不足或基分类器强度不足问题,提出基于SPCA的增强型旋转森林算法(SPCA-ERoF).通过引入旋转作用增加集成多样性,为提升旋转数据可分性,分析PCA算法,提出SPCA算法;利用随机森林作为旋转森林的基分类器,解决基分类器强度不足,进一步提升集成多样性.实验结果表明,SPCA相比PCA... 相似文献
6.
7.
8.
9.
10.
针对传统分类算法对维吾尔文文本分类准确率不高的问题,提出了一种基于深度置信网络的维吾尔文短信文本分类模型。深度学习模拟人脑的多层次结构,对数据从低层到高层逐渐地进行特征提取,深层挖掘数据集的分布规律,从而提高分类准确性。通过逐层无监督的方法完成深度置信网络的初始化,并结合softmax回归分类器实现文本的分类。最后在收集的维吾尔文短信数据集上进行实验论证。实验结果表明,相比KNN、SVM和决策树算法,深度置信网络具有更好的分类效果,准确率更高。 相似文献
11.
Md. Palash Uddin Md. Al Mamun Md. Ali Hossain 《International journal of remote sensing》2019,40(18):7190-7220
The remote sensing hyperspectral images (HSIs) usually comprise many important information of the land covers capturing through a set of hundreds of narrow and contiguous spectral wavelength bands. Appropriate classification performance can only offer the required knowledge from these immense bands of HSI since the classification result is not reasonable using all the original features (bands) of the HSI. Although it is not easy to calculate the intrinsic features from the bands, band (dimensionality) reduction techniques through feature extraction and feature selection are usually applied to increase the classification result and to fix the curse of dimensionality problem. Though the Principal Component Analysis (PCA) has been commonly adopted for the feature reduction of HSI, it can often fail to extract the local useful characteristics of the HSI for effective classification as it considers the global statistics of the HSI. Consequently, Segmented-PCA (SPCA), Spectrally-Segmented-PCA (SSPCA), Folded-PCA (FPCA) and Superpixelwise PCA (SuperPCA) have been introduced for better feature extraction of HSI in diverse ways. In this paper, feature extraction through SPCA & FPCA and SSPCA & FPCA, termed as Segmented-FPCA (SFPCA) and Spectrally-Segmented-FPCA (SSFPCA) respectively, has further been improved through applying FPCA on the highly correlated or spectrally separated bands’ segments of the HSI rather than not applying the FPCA on the entire dataset directly. The proposed methods are compared and analysed for a real mixed agricultural and an urban HSI classification using per-pixel SVM classifier. The experimental result shows that the classification performance using SSFPCA and SFPCA outperforms that of using conventional PCA, SPCA, SSPCA, FPCA, SuperPCA and using the entire original dataset without employing any feature reduction. Moreover, the proposed feature extraction methods provide the least memory and computation cost complexity. 相似文献
12.
13.
针对多发于老龄人群的帕金森病(PD)的早期智能化诊断的问题,提出基于医疗检测文本信息数据的聚类技术来对PD进行分析预测。首先,对原始数据集进行预处理以获取有效特征信息,并通过主成分分析(PCA)方法将原始特征分别降维到8个不同维度的维度空间;然后,应用5个传统的经典聚类模型和3种不同的聚类集成方法分别对8个维度空间的数据进行聚类;最后,采用4个聚类性能指标来预测数据集中的多巴胺异常PD患者、健康体和无多巴胺缺失(SWEDD) PD患者。仿真结果显示,PCA特征维度值取30时,高斯混合模型(GMM)的聚类准确度达到89.12%;PCA特征维度值取70时,谱聚类(SC)的聚类准确度达到61.41%;PCA特征维度值取80时,元聚类算法(MCLA)的聚类准确度达到59.62%。对比实验结果表明,5种经典聚类方法中,PCA的特征维度值小于40时,高斯混合模型聚类效果最佳;3种聚类集成方法中,对于不同的特征维度,MCLA的聚类性能均表现优异,进而为PD的早期智能化辅助诊断提供了技术和理论支撑。 相似文献
14.
针对多发于老龄人群的帕金森病(PD)的早期智能化诊断的问题,提出基于医疗检测文本信息数据的聚类技术来对PD进行分析预测。首先,对原始数据集进行预处理以获取有效特征信息,并通过主成分分析(PCA)方法将原始特征分别降维到8个不同维度的维度空间;然后,应用5个传统的经典聚类模型和3种不同的聚类集成方法分别对8个维度空间的数据进行聚类;最后,采用4个聚类性能指标来预测数据集中的多巴胺异常PD患者、健康体和无多巴胺缺失(SWEDD) PD患者。仿真结果显示,PCA特征维度值取30时,高斯混合模型(GMM)的聚类准确度达到89.12%;PCA特征维度值取70时,谱聚类(SC)的聚类准确度达到61.41%;PCA特征维度值取80时,元聚类算法(MCLA)的聚类准确度达到59.62%。对比实验结果表明,5种经典聚类方法中,PCA的特征维度值小于40时,高斯混合模型聚类效果最佳;3种聚类集成方法中,对于不同的特征维度,MCLA的聚类性能均表现优异,进而为PD的早期智能化辅助诊断提供了技术和理论支撑。 相似文献
15.
Principal component analysis (PCA) is a statistical technique commonly used in multivariate data analysis. However, PCA can be difficult to interpret and explain since the principal components (PCs) are linear combinations of the original variables. Sparse PCA (SPCA) aims to balance statistical fidelity and interpretability by approximating sparse PCs whose projections capture the maximal variance of original data. In this paper we present an efficient and paralleled method of SPCA using graphics processing units (GPUs), which can process large blocks of data in parallel. Specifically, we construct parallel implementations of the four optimization formulations of the generalized power method of SPCA (GP-SPCA), one of the most efficient and effective SPCA approaches, on a GPU. The parallel GPU implementation of GP-SPCA (using CUBLAS) is up to eleven times faster than the corresponding CPU implementation (using CBLAS), and up to 107 times faster than a MatLab implementation. Extensive comparative experiments in several real-world datasets confirm that SPCA offers a practical advantage. 相似文献
16.
《Engineering Applications of Artificial Intelligence》2007,20(1):101-110
Non-negative matrix factorization (NMF), proposed recently by Lee and Seung, has been applied to many areas such as dimensionality reduction, image classification image compression, and so on. Based on traditional NMF, researchers have put forward several new algorithms to improve its performance. However, particular emphasis has to be placed on the initialization of NMF because of its local convergence, although it is usually ignored in many documents. In this paper, we explore three initialization methods based on principal component analysis (PCA), fuzzy clustering and Gabor wavelets either for the consideration of computational complexity or the preservation of structure. In addition, the three methods develop an efficient way of selecting the rank of the NMF in low-dimensional space. 相似文献
17.
主元分析(principal component analysis)是一种多元统计技术,在过程监控和故障诊断中具有广泛的应用。针对过程监控中数据量大的特点,提出一种稀疏主元分析(sparse principal component analysis)方法,通过引入lasso约束函数,构建稀疏主元分析的框架,将PCA降维问题转化为回归最优化问题,从而求解得到稀疏化的主元,并提高了主元模型的抗干扰能力。由于稀疏后主元相关的数据量减少,利用数据建立过程监控模型,减少了计算量,并缩短了计算时间,进而提高了监控的实时性。利用田纳西伊斯特曼过程(TE processes)进行实验仿真,并与传统的主元分析方法进行对比研究。结果表明,新提出的稀疏主元分析方法在计算效率和监控实时性上均优于传统的主元分析方法。 相似文献
18.
随着深度学习技术的快速发展,许多研究者尝试利用深度学习来解决文本分类问题,特别是在卷积神经网络和循环神经网络方面,出现了许多新颖且有效的分类方法。对基于深度神经网络的文本分类问题进行分析,介绍卷积神经网络、循环神经网络、注意力机制等方法在文本分类中的应用和发展,分析多种典型分类方法的特点和性能,从准确率和运行时间方面对基础网络结构进行比较,表明深度神经网络较传统机器学习方法在用于文本分类时更具优势,其中卷积神经网络具有优秀的分类性能和泛化能力。在此基础上,指出当前深度文本分类模型存在的不足,并对未来的研究方向进行展望。 相似文献