首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
特征选择和分类算法是网页文本聚类中最关键的技术。提出对网页文本提取特征值后,利用潜在语义索引对网页文本降维,采用支持向量聚类(SVC)算法对降维后的特征向量进行聚类,以此进行文本分类。实验结果显示具有较好的效果。  相似文献   

2.
局部保持投影(LPP)是一种新的数据降维技术,但其本身是一种非监督学习算法,对于分类问题效果不是太好。基于自适应最近邻,结合LPP算法,提出了一种有监督的局部保持投影算法(ANNLPP)。该方法通过修改LPP算法中的权值矩阵,在降维的同时,增加了类别信息,是一种有监督学习算法。通过二维数据可视化和UMIST、ORL 人脸识别实验,表明该方法对于分类问题具有较好的降维效果。  相似文献   

3.
张旭  张向群  赵伟  何岩峰 《计算机工程》2012,38(14):171-172
提出一种基于最近特征线(NFL)的二维非参数化判别分析算法,用于人脸识别等模式分类问题。该算法在子空间学习阶段运用NFL思想计算训练集中各样例的最近特征距离,计算得到低维投影空间,在低维投影空间中进行分类。通过ORL标准人脸数据库进行实验,结果表明该算法的鲁棒性优于传统算法。  相似文献   

4.
为了快速准确地对文档进行分类,提出了一种基于局部鉴别嵌入LDE和简化SVM的高效文档分类算法。该算法首先利用LDE算法把高维文档数据投影到低维特征空间,然后在低维特征空间利用精简SVM进行分类。实验结果表明该算法具有分类准确率高和运行速度快的优点。  相似文献   

5.
分类是一种重要的数据挖掘问题,它的一般过程是先输入数据,再利用相关的分类算法得到分类规则,对新的数据划分类别。笔者详细介绍了两种简单的分类降维算法:PrincipalComponentAnalysis(PCA)和Linear DiscriminantAnalysis(LDA)。通过比较这两种分类算法发现,LDA是有监督的降维方法,可选择分类性能最好的投影方向,而PCA是无监督的降维方法,可选择样本点投影具有最大方差的方向。  相似文献   

6.
针对互联网日益泛滥的色情信息,分析了向量空间模型中KNN算法,并对它的缺陷进行了改进,将其运用于色情网页过滤中,提出了一种色情网页过滤解决方案。该方法首先对特征项的选取和权重计算的方法进行了优化,然后使用改进后KNN算法进行网页分类。实验表明,通过改进,有效地降低了向量空间的维数,提高了网页分类的精度和速度,能有效地识别并过滤色情网页。  相似文献   

7.
为了有效地解决传统的基于向量表示的文档维数降维算法存在的维数灾难和奇异值问题,提出了基于张量最大间隔投影的Web文档分类算法,该算法能够在维数降维的过程中充分利用文档的结构和关联信息来提高算法的分类鉴别能力,在WebKB和20NG数据集上的实验结果表明该算法优于其他常用的的文档分类算法。  相似文献   

8.
为了获得更好的人脸特征,有效地提高算法的识别率,提出了一种联合Gabor特征与投影字典对学习的人脸识别算法G-DPL。算法使用Gabor小波提取人脸图像的局部特征,对特征向量使用PCA与LDA的方法进行降维。将投影字典对学习算法与降维后的Gabor特征融合,然后进行分类识别。提出的G-DPL算法在ORL库上整体识别率达到99.00%,特征维数为39维。在AR库上识别率达到96.14%,特征维数为99维。提出的G-DPL算法在占用较少空间的同时能够获得更高的识别率,对实际应用具有一定的参考价值。  相似文献   

9.
为了获得更好的人脸特征,有效地提高算法的识别率,提出了一种联合Gabor 特征 与投影字典对学习的人脸识别算法G-DPL。算法使用Gabor 小波提取人脸图像的局部特征,对特 征向量使用PCA 与LDA 的方法进行降维。将投影字典对学习算法与降维后的Gabor 特征融合, 然后进行分类识别。提出的G-DPL 算法在ORL 库上整体识别率达到99.00%,特征维数为39 维。 在AR 库上识别率达到96.14%,特征维数为99 维。提出的G-DPL 算法在占用较少空间的同时能 够获得更高的识别率,对实际应用具有一定的参考价值。  相似文献   

10.
对文本分类中降维技术、提高分类精度和效率的方法进行了研究,提出了一种基于矩阵投影运算的新型文本分类算法——Matrix Projection(MP)分类算法。矩阵运算将训练样例中表示文本特征的三维空间投影到二维空间上,得到归一化向量,有效地达到了降维与精确计算特征项权重的目的。与其他多种文本分类算法对比实验表明,MP算法的分类精度和时间性能都有明显提高,在两套数据集上的宏平均F1值分别达到92.29%和96.03%。  相似文献   

11.
A two-phase fractal image sequence compression system is proposed. In the classification phase, according to the texture attribution a testing solid image block is assigned to its corresponding texture class. The texture attribution is derived from the tomographic block projection classification for the finite projection directions at the three-dimensional (3D) space. In the adaptive coding phase, both the algorithm of the 3D projection classification and the 3D variable shape decomposition are incorporated into the variable shape block transformation for image sequence. By applying this variable shape block transformation algorithm to fractal image sequence coding scheme, we can obtain a promising performance.  相似文献   

12.
将投影寻踪回归分析技术引入遥感影像分类中,详尽叙述遥感影像投影寻踪回归分类模型的建立和实现过程。将广州地区的TM影像用于分类实验,并用混合蛙跳算法来优化投影寻踪回归分类模型中的参数矩阵,取得了较为理想的分类效果。此外,还进一步分析了投影中心的设定、调整以及优化算法和岭函数个数对投影寻踪回归模型分类精度的影响。实验结果表明,该模型易于优化实现,稳定性强,模型中岭函数的个数对投影寻踪回归模型的分类精度没有显著影响。  相似文献   

13.
遗传-粒子群的投影寻踪模型   总被引:2,自引:0,他引:2  
以前的投影寻踪研究都是采用遗传算法来寻找最优的投影方向,但遗传算法对初始种群的选择有一定的依赖性,收敛速度较慢,而且得到的也未必是最优解。粒子群算法是一种模拟鸟群飞行觅食的行为,通过个体之间的协作来寻找最优解的进化计算技术。根据遗传算法和粒子群算法的优缺点,将两者有效地结合在一起,提出了遗传-粒子群的投影寻踪模型。该方法能有效地解决投影寻踪模型中投影方向的寻优问题,并将该方法应用于文本分类,在Reuters-21578文档集上分别采用KNN和朴素贝叶斯方法进行实验,结果表明此方法能有效提取投影方向,取得了满意的分类效果,也提高了算法收敛到最优解的能力。  相似文献   

14.
In this paper, genetic algorithm oriented latent semantic features (GALSF) are proposed to obtain better representation of documents in text classification. The proposed approach consists of feature selection and feature transformation stages. The first stage is carried out using the state-of-the-art filter-based methods. The second stage employs latent semantic indexing (LSI) empowered by genetic algorithm such that a better projection is attained using appropriate singular vectors, which are not limited to the ones corresponding to the largest singular values, unlike standard LSI approach. In this way, the singular vectors with small singular values may also be used for projection whereas the vectors with large singular values may be eliminated as well to obtain better discrimination. Experimental results demonstrate that GALSF outperforms both LSI and filter-based feature selection methods on benchmark datasets for various feature dimensions.  相似文献   

15.
本文介绍了Web数据挖掘的概念及其分类,并对Web数据挖掘技术的研究进行概述。利用Apriori算法发现频繁集,找到页面间的关联规则。针对网页超链接结构的特点:一条超链接只能建立在两个网页上,发现频繁集只要找出所有2-项集即可,从而提出网页超链接挖掘的NApriori算法。NApriori算法显著提高了Apriori算法的效率。  相似文献   

16.
徐海瑞  张文生  吴双 《计算机工程》2011,37(17):133-135
提出一种基于流形学习的文本分类方法以解决高维文本数据分类问题.利用近邻保持嵌入流形学习算法获得高维Web文本空间中的低维流形结构,采用K近邻分类器对低维流形进行分类.实验结果表明,基于流形学习的方法能获得较好的分类效果,具有稳定的性能.  相似文献   

17.
针对WEB文档分类中KNN算法计算复杂度高的缺点,不同于以往从减少训练样本集大小和采用快速算法角度来降低KNN算法的计算复杂度,从并行的角度出发,提出一种在Hyper-cube SIMD模型上的并行算法,其关键部分的时间计算复杂度从O(n2)降为O(log(n)),该算法与传统的串行算法相比,能显著地提高分类速度。  相似文献   

18.
基于K-近邻算法的网页自动分类系统的研究及实现   总被引:2,自引:0,他引:2  
随着网络信息量的爆炸式增长,人们查找信息越来越难。Web搜索引擎的出现在一定程度上解决了这种矛盾。然而现行的搜索引擎无法根据用户所指定的主题进行针对性的搜索,因此,必须在搜索后对结果是否属于目标主题进行判断,以提高搜索的准确性,文中提出了一种基于K-近邻机器学习算法的信息自动分类的方法,能够对搜索到的网页自动地判定是否属于目标主题,并在实验的基础上验证了其在提高搜索准确性上的作用。  相似文献   

19.
蚁群优化是人工智能领域中群体智能的分支之一,已经成功地应用于旅行推销员、作业调度选择等优化问题上,但用它解决数据挖掘问题还是一个新的研究课题。本文提出一种蚂蚁分类算法Ant_Miner3,并在Web数据挖掘中采用相应的页面优化分类方法,对非结构化数据集的处理进行了相关的研究和优化。经实验验证,该算法能够导出更优更简洁的分类规则。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号